Estudio experimental de técnicas de sobremuestreo en conjuntos de datos masivos desbalanceados con baja y alta densidad
Fecha
2021-11-04Autor
García, Vicente
Florencia, Rogelio
198665
Bolívar Velazco, Armando Isaac
Alejo Eleuterio, Roberto
Metadatos
Mostrar el registro completo del ítemResumen
En este trabajo se analiza el comportamiento de dos técnicas de sobremuestreo enfocadas en tratar el problema de clasificación de datos masivos desbalanceados, cuando adicionalmente se presenta una alta dimensionalidad. La literatura menciona que, en conjuntos de datos con un gran número de atributos, las técnicas de sobremuestreo basadas en distancias euclidianas se ven afectadas. Se obtuvo una base de datos denominada KDD 2010 del repositorio LIBSVM, que cuenta con dos clases, 19 264 097 instancias y 1 163 024 dimensiones. La base de datos es de baja densidad, por lo que la mayoría de los atributos contienen ceros. Para generar una base de datos con alta densidad se empleó un PCA. Los experimentos se realizaron en la nube pública de Google, donde se configuro un clúster de Spark 3.1.2 con un nodo maestro y cuatro nodos esclavos. Como algoritmos de sobremuestreo y clasificación se usaron ROS, SMOTE, SVC y árbol de decisión. En la base de datos de baja densidad, el fenómeno de la maldición de la dimensionalidad no parece afectar de manera evidente el cálculo de distancias de SMOTE, sino que, paradójicamente, entre mayor la dimensionalidad mejor es la tasa de clasificación. Caso contrario se observa en la base de datos con alta densidad, donde conforme se incrementan las dimensiones se observa un deterioro de la eficacia de SMOTE. Los efectos de la maldición de la dimensionalidad se podrían definir en términos de el número de atributos y la densidad. SMOTE no se ve afectado en conjuntos de datos con alta dimensionalidad y baja densidad.
Colecciones
- Memoria en abstract [186]
El ítem tiene asociados los siguientes archivos de licencia: