Clases no balanceadas y alta dimensionalidad en Big Data: Un estudio de SMOTE con normas fraccionales
Fecha
2021-10-26Autor
García, Vicente
Florencia, Rogelio
198665
Bolívar Velazco, Armando Isaac
Alejo Eleuterio, Roberto
Metadatos
Mostrar el registro completo del ítemResumen
La presente investigación tiene como objetivo analizar el comportamiento de un algoritmo de sobremuestreo basado en distancias, llamado SMOTE, en un problema de clases no balanceadas y alta dimensionalidad en Big Data. Para ello, se obtuvo una base de datos del repositorio LIBSVM, en específico se trabajó con el conjunto de datos de KDD 2010 que cuenta con 2 clases, 19 264 097 instancias y 1 163 024 atributos. La base de datos es dispersa, por lo que algunos atributos tienen un valor de 0. Para la experimentación se utilizaron tres máquinas virtuales en la nube de Azure, una instancia maestra/ejecutora Standard_E2as_v4 y dos instancias ejecutoras Standard_D2ds_v4 configuradas en clúster con Spark 3.1.1. Debido a las limitantes del equipo de cómputo para acomodar todos los datos en memoria, se redujo la cantidad de instancias a 30 000. Para evaluar el efecto de la alta dimensionalidad en el algoritmo de sobremuestreo, la base de datos fue modificada con diferentes tamaños que van desde 50 hasta 900 atributos. En todos los casos, el radio de desbalance fue de 1:10. Asimismo, se llevaron a cabo experimentos usando normas fraccionales en el SMOTE, que pueden ayudar a reducir el efecto de la alta dimensionalidad. Los resultados obtenidos usando un árbol de decisión muestran que existe una mejora en la clasificación de la clase minoritaria cuando se emplea SMOTE con normas fraccionales. Sin embargo, se observó que la tasa de reconocimiento en la clase mayoritaria se vio drásticamente reducida. Esto quizás se deba que el conjunto de datos es disperso, por lo que puede haber ocasionado un sobre-ajuste del clasificador. En la siguiente etapa de esta investigación se realizará la misma experimentación, pero empleando un conjunto
de datos no disperso.
Colecciones
- Memoria en abstract [184]
El ítem tiene asociados los siguientes archivos de licencia: