Mostrar el registro sencillo del ítem
Estudio experimental de técnicas de sobremuestreo en conjuntos de datos masivos desbalanceados con baja y alta densidad
dc.date.accessioned | 2021-11-19T17:39:31Z | |
dc.date.available | 2021-11-19T17:39:31Z | |
dc.date.issued | 2021-11-04 | es_MX |
dc.identifier.other | 04-2021-031915483500-203 | |
dc.identifier.uri | http://cathi.uacj.mx/20.500.11961/19094 | |
dc.description.abstract | En este trabajo se analiza el comportamiento de dos técnicas de sobremuestreo enfocadas en tratar el problema de clasificación de datos masivos desbalanceados, cuando adicionalmente se presenta una alta dimensionalidad. La literatura menciona que, en conjuntos de datos con un gran número de atributos, las técnicas de sobremuestreo basadas en distancias euclidianas se ven afectadas. Se obtuvo una base de datos denominada KDD 2010 del repositorio LIBSVM, que cuenta con dos clases, 19 264 097 instancias y 1 163 024 dimensiones. La base de datos es de baja densidad, por lo que la mayoría de los atributos contienen ceros. Para generar una base de datos con alta densidad se empleó un PCA. Los experimentos se realizaron en la nube pública de Google, donde se configuro un clúster de Spark 3.1.2 con un nodo maestro y cuatro nodos esclavos. Como algoritmos de sobremuestreo y clasificación se usaron ROS, SMOTE, SVC y árbol de decisión. En la base de datos de baja densidad, el fenómeno de la maldición de la dimensionalidad no parece afectar de manera evidente el cálculo de distancias de SMOTE, sino que, paradójicamente, entre mayor la dimensionalidad mejor es la tasa de clasificación. Caso contrario se observa en la base de datos con alta densidad, donde conforme se incrementan las dimensiones se observa un deterioro de la eficacia de SMOTE. Los efectos de la maldición de la dimensionalidad se podrían definir en términos de el número de atributos y la densidad. SMOTE no se ve afectado en conjuntos de datos con alta dimensionalidad y baja densidad. | es_MX |
dc.description.uri | https://erevistas.uacj.mx/ojs/index.php/memoriascyt/article/view/4643 | es_MX |
dc.language.iso | spa | es_MX |
dc.publisher | Universidad Autónoma de Ciudad Juárez | es_MX |
dc.relation.ispartof | Producto de investigación IIT | es_MX |
dc.relation.ispartof | Instituto de Ingeniería y Tecnología | es_MX |
dc.rights | Atribución-NoComercial 2.5 México | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/2.5/mx/ | * |
dc.subject.other | info:eu-repo/classification/cti/7 | es_MX |
dc.title | Estudio experimental de técnicas de sobremuestreo en conjuntos de datos masivos desbalanceados con baja y alta densidad | es_MX |
dc.type | Memoria en abstract | es_MX |
dcterms.thumbnail | http://ri.uacj.mx/vufind/thumbnails/rupiiit.png | |
dcrupi.instituto | Instituto de Ingeniería y Tecnología | es_MX |
dcrupi.cosechable | Si | es_MX |
dcrupi.subtipo | Investigación | es_MX |
dcrupi.alcance | Local | es_MX |
dcrupi.pais | México | es_MX |
dc.contributor.coauthor | García, Vicente | |
dc.contributor.coauthor | Florencia, Rogelio | |
dc.contributor.alumno | 198665 | es_MX |
dcrupi.tipoevento | Coloquio | es_MX |
dcrupi.evento | 2do. Coloquio de Posgrados IIT 2021 | es_MX |
dcrupi.estado | Chihuahua | es_MX |
dc.contributor.authorexterno | Bolívar Velazco, Armando Isaac | |
dc.contributor.coauthorexterno | Alejo Eleuterio, Roberto | |
dcrupi.pronaces | Salud | es_MX |
Archivos en el ítem
Este ítem aparece en la(s) siguiente(s) colección(ones)
-
Memoria en abstract [186]