Análisis de la Influencia de las Características Intrínsecas de Datos Financieros en Modelos de Aprendizaje Automático de Valoración de Crédito
Resumen
La predicción del riesgo crediticio ha sido ampliamente estudiado como un problema de clasificación binaria usando modelos
estadísticos avanzados y de aprendizaje automático. Los sistemas tradicionales de clasificación y los modelos de sistemas múltiples (ensembles) han demostrado su efectividad para diversas aplicaciones financieras utilizando conjuntos de datos que a menudo se caracterizan por imperfecciones tales como: atributos irrelevantes, clases asimétricas, datos desplazados, datos faltantes y ruidosos. Sin embargo, existen otras características intrínsecas que pueden obstaculizar el rendimiento de los algoritmos de predicción, principalmente en aquellos registros (negativos) que describen una situación de riesgo (insolvencia, quiebra, bancarrota, etc), donde el costo por no reconocer un registro de este tipo suele ser mucho más alto que aquellos que denotan buenos clientes con la capacidad de cubrir el pago del crédito adquirido (positivos). En este trabajo se caracterizaró la complejidad de 14 bases de datos de bancos reales, basado en los cuatro diferentes tipos de registros positivos que pueden existir: seguros, frontera, raros y atípicos. El objetivo fue obtener conocimiento sobre los vínculos potenciales entre el rendimiento de los modelos múltiples de clasificación (BAGGING, AdaBoost, random subsapce, DECORATE, rotation forest, random forest stochastic gradient boosting) y los tipos de muestra positivas.
Colecciones
- Reporte técnico [279]