Mostrar el registro sencillo del ítem

dc.date.accessioned2021-11-19T17:33:12Z
dc.date.available2021-11-19T17:33:12Z
dc.date.issued2021-10-26es_MX
dc.identifier.other04-2021-031915483500-203
dc.identifier.urihttp://cathi.uacj.mx/20.500.11961/19089
dc.description.abstractLa presente investigación tiene como objetivo analizar el comportamiento de un algoritmo de sobremuestreo basado en distancias, llamado SMOTE, en un problema de clases no balanceadas y alta dimensionalidad en Big Data. Para ello, se obtuvo una base de datos del repositorio LIBSVM, en específico se trabajó con el conjunto de datos de KDD 2010 que cuenta con 2 clases, 19 264 097 instancias y 1 163 024 atributos. La base de datos es dispersa, por lo que algunos atributos tienen un valor de 0. Para la experimentación se utilizaron tres máquinas virtuales en la nube de Azure, una instancia maestra/ejecutora Standard_E2as_v4 y dos instancias ejecutoras Standard_D2ds_v4 configuradas en clúster con Spark 3.1.1. Debido a las limitantes del equipo de cómputo para acomodar todos los datos en memoria, se redujo la cantidad de instancias a 30 000. Para evaluar el efecto de la alta dimensionalidad en el algoritmo de sobremuestreo, la base de datos fue modificada con diferentes tamaños que van desde 50 hasta 900 atributos. En todos los casos, el radio de desbalance fue de 1:10. Asimismo, se llevaron a cabo experimentos usando normas fraccionales en el SMOTE, que pueden ayudar a reducir el efecto de la alta dimensionalidad. Los resultados obtenidos usando un árbol de decisión muestran que existe una mejora en la clasificación de la clase minoritaria cuando se emplea SMOTE con normas fraccionales. Sin embargo, se observó que la tasa de reconocimiento en la clase mayoritaria se vio drásticamente reducida. Esto quizás se deba que el conjunto de datos es disperso, por lo que puede haber ocasionado un sobre-ajuste del clasificador. En la siguiente etapa de esta investigación se realizará la misma experimentación, pero empleando un conjunto de datos no disperso.es_MX
dc.description.urihttps://erevistas.uacj.mx/ojs/index.php/memoriascyt/issue/view/725es_MX
dc.language.isospaes_MX
dc.publisherUniversidad Autónoma de Ciudad Juárezes_MX
dc.relation.ispartofProducto de investigación IITes_MX
dc.relation.ispartofInstituto de Ingeniería y Tecnologíaes_MX
dc.rightsAtribución-NoComercial 2.5 México*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/2.5/mx/*
dc.subjectSMOTEes_MX
dc.subjectBig Dataes_MX
dc.subjectAlta Dimensionalidades_MX
dc.subjectClases no balanceadases_MX
dc.subjectNormas Fraccionaleses_MX
dc.subject.otherinfo:eu-repo/classification/cti/7es_MX
dc.titleClases no balanceadas y alta dimensionalidad en Big Data: Un estudio de SMOTE con normas fraccionaleses_MX
dc.typeMemoria en abstractes_MX
dcterms.thumbnailhttp://ri.uacj.mx/vufind/thumbnails/rupiiit.png
dcrupi.institutoInstituto de Ingeniería y Tecnologíaes_MX
dcrupi.cosechableSies_MX
dcrupi.subtipoInvestigaciónes_MX
dcrupi.alcanceLocales_MX
dcrupi.paisMéxicoes_MX
dc.contributor.coauthorGarcía, Vicente
dc.contributor.coauthorFlorencia, Rogelio
dc.contributor.alumno198665es_MX
dcrupi.tipoeventoColoquioes_MX
dcrupi.evento1er. Coloquio de Posgrados IIT 2021es_MX
dcrupi.estadoChihuahuaes_MX
dc.contributor.authorexternoBolívar Velazco, Armando Isaac
dc.contributor.coauthorexternoAlejo Eleuterio, Roberto
dcrupi.pronacesSaludes_MX


Archivos en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Atribución-NoComercial 2.5 México
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial 2.5 México

Av. Plutarco Elías Calles #1210 • Fovissste Chamizal
Ciudad Juárez, Chihuahua, México • C.P. 32310 • Tel. (+52) 688 – 2100 al 09