Mostrar el registro sencillo del ítem
Clases no balanceadas y alta dimensionalidad en Big Data: Un estudio de SMOTE con normas fraccionales
dc.date.accessioned | 2021-11-19T17:33:12Z | |
dc.date.available | 2021-11-19T17:33:12Z | |
dc.date.issued | 2021-10-26 | es_MX |
dc.identifier.other | 04-2021-031915483500-203 | |
dc.identifier.uri | http://cathi.uacj.mx/20.500.11961/19089 | |
dc.description.abstract | La presente investigación tiene como objetivo analizar el comportamiento de un algoritmo de sobremuestreo basado en distancias, llamado SMOTE, en un problema de clases no balanceadas y alta dimensionalidad en Big Data. Para ello, se obtuvo una base de datos del repositorio LIBSVM, en específico se trabajó con el conjunto de datos de KDD 2010 que cuenta con 2 clases, 19 264 097 instancias y 1 163 024 atributos. La base de datos es dispersa, por lo que algunos atributos tienen un valor de 0. Para la experimentación se utilizaron tres máquinas virtuales en la nube de Azure, una instancia maestra/ejecutora Standard_E2as_v4 y dos instancias ejecutoras Standard_D2ds_v4 configuradas en clúster con Spark 3.1.1. Debido a las limitantes del equipo de cómputo para acomodar todos los datos en memoria, se redujo la cantidad de instancias a 30 000. Para evaluar el efecto de la alta dimensionalidad en el algoritmo de sobremuestreo, la base de datos fue modificada con diferentes tamaños que van desde 50 hasta 900 atributos. En todos los casos, el radio de desbalance fue de 1:10. Asimismo, se llevaron a cabo experimentos usando normas fraccionales en el SMOTE, que pueden ayudar a reducir el efecto de la alta dimensionalidad. Los resultados obtenidos usando un árbol de decisión muestran que existe una mejora en la clasificación de la clase minoritaria cuando se emplea SMOTE con normas fraccionales. Sin embargo, se observó que la tasa de reconocimiento en la clase mayoritaria se vio drásticamente reducida. Esto quizás se deba que el conjunto de datos es disperso, por lo que puede haber ocasionado un sobre-ajuste del clasificador. En la siguiente etapa de esta investigación se realizará la misma experimentación, pero empleando un conjunto de datos no disperso. | es_MX |
dc.description.uri | https://erevistas.uacj.mx/ojs/index.php/memoriascyt/issue/view/725 | es_MX |
dc.language.iso | spa | es_MX |
dc.publisher | Universidad Autónoma de Ciudad Juárez | es_MX |
dc.relation.ispartof | Producto de investigación IIT | es_MX |
dc.relation.ispartof | Instituto de Ingeniería y Tecnología | es_MX |
dc.rights | Atribución-NoComercial 2.5 México | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/2.5/mx/ | * |
dc.subject | SMOTE | es_MX |
dc.subject | Big Data | es_MX |
dc.subject | Alta Dimensionalidad | es_MX |
dc.subject | Clases no balanceadas | es_MX |
dc.subject | Normas Fraccionales | es_MX |
dc.subject.other | info:eu-repo/classification/cti/7 | es_MX |
dc.title | Clases no balanceadas y alta dimensionalidad en Big Data: Un estudio de SMOTE con normas fraccionales | es_MX |
dc.type | Memoria en abstract | es_MX |
dcterms.thumbnail | http://ri.uacj.mx/vufind/thumbnails/rupiiit.png | |
dcrupi.instituto | Instituto de Ingeniería y Tecnología | es_MX |
dcrupi.cosechable | Si | es_MX |
dcrupi.subtipo | Investigación | es_MX |
dcrupi.alcance | Local | es_MX |
dcrupi.pais | México | es_MX |
dc.contributor.coauthor | García, Vicente | |
dc.contributor.coauthor | Florencia, Rogelio | |
dc.contributor.alumno | 198665 | es_MX |
dcrupi.tipoevento | Coloquio | es_MX |
dcrupi.evento | 1er. Coloquio de Posgrados IIT 2021 | es_MX |
dcrupi.estado | Chihuahua | es_MX |
dc.contributor.authorexterno | Bolívar Velazco, Armando Isaac | |
dc.contributor.coauthorexterno | Alejo Eleuterio, Roberto | |
dcrupi.pronaces | Salud | es_MX |
Archivos en el ítem
Este ítem aparece en la(s) siguiente(s) colección(ones)
-
Memoria en abstract [184]