Morales Rivera, Mario AlfonsoPérez Cantero, Kevin LuisHoyos Vega, Jhon Jeiller2023-11-102023-11-102023-11-10https://repositorio.unicordoba.edu.co/handle/ucordoba/7877El objetivo de esta investigación se fundamenta en la aplicación de algoritmos de aprendizaje automático supervisado como el de regresión logística, Naive Bayes, gradient boosting y redes neuronales, para clasificar a los estudiantes de los programas de matemáticas y estadística de la Universidad de Córdoba, en el lugar de desarrollo ubicado en Montería, en posibles desertores o no desertores del programa, a partir de información de variables socioeconómicas y académicas de los estudiantes al momento de ingresar, como la edad, el puntaje ICFES en matemáticas, el promedio acumulado ponderado y otras que resultan significativas en los estudios de deserción estudiantil y que se tenían disponibles. El estudio contó con una muestra de 852 estudiantes de estos programas que presentaron matrícula académica durante las cohortes de 2015-1 hasta 2021-2, con lo cual se dispuso de un tamaño de muestra suficiente para el entrenamiento y evaluación de los modelos por medio de la aplicación de validación cruzada. Los principales hallazgos en esta investigación muestran que los cuatro algoritmos considerados alcanzan precisiones similares y por encima del 73 %, evidenciando que la información disponible es suficiente para hacer una buena clasificación de estos estudiantes, entre los que pueden optar por abandonar o no sus estudios universitarios.Resumen vAgradecimientos vii1. Introducción 12. Objetivos 62.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63. Marco teórico 74. Marco conceptual 144.1. Definición de deserción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2. Definición de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.3. Definición de coeficiente de correlación de rango de Kendall . . . . . . . . . . . . 154.4. Definición de prueba de independencia chi-cuadrado . . . . . . . . . . . . . . . . 174.5. Definición de aprendizaje automático (Machine learning) . . . . . . . . . . . . . 184.5.1. Definición de aprendizaje automático supervisado . . . . . . . . . . . . . 184.6. Definición de modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . 194.7. Definición de modelo de clasificación Naive Bayes . . . . . . . . . . . . . . . . . 204.8. Definición de modelo gradient boosting . . . . . . . . . . . . . . . . . . . . . . . 214.9. Definición de modelo de redes neuronales . . . . . . . . . . . . . . . . . . . . . . 234.10. Definición de validación cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.11. Métricas de evaluación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 254.12. Definición de curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275. Metodología 285.1. Pasos del proceso investigativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.1.1. Selección de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.1.2. Limpieza y depuración de los datos . . . . . . . . . . . . . . . . . . . . . 315.1.3. Análisis exploratorio de la población . . . . . . . . . . . . . . . . . . . . 315.1.4. Entrenamiento de los modelos . . . . . . . . . . . . . . . . . . . . . . . . 315.1.5. Selección del mejor modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 346. Resultados 356.1. Análisis exploratorio de la población . . . . . . . . . . . . . . . . . . . . . . . . 356.2. Variables correlacionadas con la decisión de desertar . . . . . . . . . . . . . . . . 396.3. Modelos planteados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.3.1. Modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . 406.3.2. Modelo Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446.3.3. Modelo Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 456.3.4. Modelo de Redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . 466.4. Evaluación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477. Discusión 498. Conclusiones y recomendaciones 528.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528.2. Recomendaciones y trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . 54application/pdfspaCopyright Universidad de Córdoba, 2023510 - MatemáticasEntrenamiento de modelos de aprendizaje automático para clasificar estudiantes en posibles desertores o no desertores, en programas académicos de la Universidad de CórdobaTrabajo de grado - PregradoAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)info:eu-repo/semantics/openAccessDeserciónEducación superiorModelos de clasificaciónAprendizaje automáticoDropoutHigher educationClassification modelsMachine learningUniversidad de CórdobaRepositorio Universidad de Córdobahttps://repositorio.unicordoba.edu.co/http://purl.org/coar/access_right/c_abf2