Técnicas de sobremuestreo big data en espacios de disimilitud en conjuntos de datos desbalanceados con alta dimensionalidad y solapamiento
Resumen
En este trabajo se usa una técnica de transformación del espacio llamada disimilitud para mitigar el problema del solapamiento y la alta dimensionalidad. Además, se utiliza SMOTE con normas fracciona-rias y con distancia euclidiana en el espacio original y de disimilitud. También, se caracteriza el sola-pamiento a nivel de atributos utilizando la métrica de complejidad F1. Para ello, se generaron bases de datos sintéticas solapadas y desbalanceadas con una relación de desbalance de 10:1 (mayoritaria: minoritaria), 110 000 ejemplos, dimensionalidad que va de 1000 hasta 4000 dimensiones y un 20 % de ruido. Los experimentos se realizaron en la nube de Google, donde se configuró un clúster de Spark 3.1.2 con un nodo maestro y siete nodos esclavos. Se compararon los resultados obtenidos de SMOTE con normas fraccionarias en el espacio de características y en el espacio de disimilitud. SMOTE con normas fraccionarias en el espacio de características obtuvo el mejor desempeño de TPR, mientras que SMOTE en el espacio de disimilitud obtuvo el mejor AUC-ROC. Cuando se comparó el solapamiento de características por medio de la métrica F1, en el nuevo espacio se logró disminuir el solapamiento. En trabajos futuros, se buscará también tratar el solapamiento a nivel de instancias por medio de técnicas basadas en el vecino más cercano.
Colecciones
- Memoria en abstract [184]