Mostrar el registro sencillo del ítem

dc.date.accessioned2021-11-19T17:39:31Z
dc.date.available2021-11-19T17:39:31Z
dc.date.issued2021-11-04es_MX
dc.identifier.other04-2021-031915483500-203
dc.identifier.urihttp://cathi.uacj.mx/20.500.11961/19094
dc.description.abstractEn este trabajo se analiza el comportamiento de dos técnicas de sobremuestreo enfocadas en tratar el problema de clasificación de datos masivos desbalanceados, cuando adicionalmente se presenta una alta dimensionalidad. La literatura menciona que, en conjuntos de datos con un gran número de atributos, las técnicas de sobremuestreo basadas en distancias euclidianas se ven afectadas. Se obtuvo una base de datos denominada KDD 2010 del repositorio LIBSVM, que cuenta con dos clases, 19 264 097 instancias y 1 163 024 dimensiones. La base de datos es de baja densidad, por lo que la mayoría de los atributos contienen ceros. Para generar una base de datos con alta densidad se empleó un PCA. Los experimentos se realizaron en la nube pública de Google, donde se configuro un clúster de Spark 3.1.2 con un nodo maestro y cuatro nodos esclavos. Como algoritmos de sobremuestreo y clasificación se usaron ROS, SMOTE, SVC y árbol de decisión. En la base de datos de baja densidad, el fenómeno de la maldición de la dimensionalidad no parece afectar de manera evidente el cálculo de distancias de SMOTE, sino que, paradójicamente, entre mayor la dimensionalidad mejor es la tasa de clasificación. Caso contrario se observa en la base de datos con alta densidad, donde conforme se incrementan las dimensiones se observa un deterioro de la eficacia de SMOTE. Los efectos de la maldición de la dimensionalidad se podrían definir en términos de el número de atributos y la densidad. SMOTE no se ve afectado en conjuntos de datos con alta dimensionalidad y baja densidad.es_MX
dc.description.urihttps://erevistas.uacj.mx/ojs/index.php/memoriascyt/article/view/4643es_MX
dc.language.isospaes_MX
dc.publisherUniversidad Autónoma de Ciudad Juárezes_MX
dc.relation.ispartofProducto de investigación IITes_MX
dc.relation.ispartofInstituto de Ingeniería y Tecnologíaes_MX
dc.rightsAtribución-NoComercial 2.5 México*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/2.5/mx/*
dc.subject.otherinfo:eu-repo/classification/cti/7es_MX
dc.titleEstudio experimental de técnicas de sobremuestreo en conjuntos de datos masivos desbalanceados con baja y alta densidades_MX
dc.typeMemoria en abstractes_MX
dcterms.thumbnailhttp://ri.uacj.mx/vufind/thumbnails/rupiiit.png
dcrupi.institutoInstituto de Ingeniería y Tecnologíaes_MX
dcrupi.cosechableSies_MX
dcrupi.subtipoInvestigaciónes_MX
dcrupi.alcanceLocales_MX
dcrupi.paisMéxicoes_MX
dc.contributor.coauthorGarcía, Vicente
dc.contributor.coauthorFlorencia, Rogelio
dc.contributor.alumno198665es_MX
dcrupi.tipoeventoColoquioes_MX
dcrupi.evento2do. Coloquio de Posgrados IIT 2021es_MX
dcrupi.estadoChihuahuaes_MX
dc.contributor.authorexternoBolívar Velazco, Armando Isaac
dc.contributor.coauthorexternoAlejo Eleuterio, Roberto
dcrupi.pronacesSaludes_MX


Archivos en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Atribución-NoComercial 2.5 México
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial 2.5 México

Av. Plutarco Elías Calles #1210 • Fovissste Chamizal
Ciudad Juárez, Chihuahua, México • C.P. 32310 • Tel. (+52) 688 – 2100 al 09