Publicación:
Entrenamiento de modelos de aprendizaje automático para clasificar estudiantes en posibles desertores o no desertores, en programas académicos de la Universidad de Córdoba

dc.contributor.advisorMorales Rivera, Mario Alfonso
dc.contributor.advisorPérez Cantero, Kevin Luis
dc.contributor.authorHoyos Vega, Jhon Jeiller
dc.date.accessioned2023-11-10T18:51:55Z
dc.date.available2023-11-10T18:51:55Z
dc.date.issued2023-11-10
dc.description.abstractEl objetivo de esta investigación se fundamenta en la aplicación de algoritmos de aprendizaje automático supervisado como el de regresión logística, Naive Bayes, gradient boosting y redes neuronales, para clasificar a los estudiantes de los programas de matemáticas y estadística de la Universidad de Córdoba, en el lugar de desarrollo ubicado en Montería, en posibles desertores o no desertores del programa, a partir de información de variables socioeconómicas y académicas de los estudiantes al momento de ingresar, como la edad, el puntaje ICFES en matemáticas, el promedio acumulado ponderado y otras que resultan significativas en los estudios de deserción estudiantil y que se tenían disponibles. El estudio contó con una muestra de 852 estudiantes de estos programas que presentaron matrícula académica durante las cohortes de 2015-1 hasta 2021-2, con lo cual se dispuso de un tamaño de muestra suficiente para el entrenamiento y evaluación de los modelos por medio de la aplicación de validación cruzada. Los principales hallazgos en esta investigación muestran que los cuatro algoritmos considerados alcanzan precisiones similares y por encima del 73 %, evidenciando que la información disponible es suficiente para hacer una buena clasificación de estos estudiantes, entre los que pueden optar por abandonar o no sus estudios universitarios.spa
dc.description.abstractenglishThe objective of this research is based on the application of supervised machine learning algorithms such as logistic regression, Naive Bayes, Gradient boosting, and neural networks, to classify from the mathematics and statistics programs at the University of Córdoba, located in Montería, as potential dropouts or non-dropouts from the program, based on socioeconomic and academic variables of the students at the time of entry, such as age, ICFES score in mathematics, weighted cumulative average, and others that are significant in student dropout studies and were available. The study had a sample of 852 students from these programs who registered for academic enrollment during the cohorts from 2015-1 to 2021-2, thus providing a sufficient sample size for the training and evaluation of the models through the application of cross-validation. The main findings in the research show that the four algorithms considered achieve similar accuracies and above 73 %, showing that the available information is sufficient to make a good classification of these students, among those who may choose to drop out or not from their university studies.eng
dc.description.degreelevelPregrado
dc.description.degreenameEstadístico(a)
dc.description.modalityTrabajos de Investigación y/o Extensión
dc.description.tableofcontentsResumen vspa
dc.description.tableofcontentsAgradecimientos viispa
dc.description.tableofcontents1. Introducción 1spa
dc.description.tableofcontents2. Objetivos 6spa
dc.description.tableofcontents2.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6spa
dc.description.tableofcontents2.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6spa
dc.description.tableofcontents3. Marco teórico 7spa
dc.description.tableofcontents4. Marco conceptual 14spa
dc.description.tableofcontents4.1. Definición de deserción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14spa
dc.description.tableofcontents4.2. Definición de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15spa
dc.description.tableofcontents4.3. Definición de coeficiente de correlación de rango de Kendall . . . . . . . . . . . . 15spa
dc.description.tableofcontents4.4. Definición de prueba de independencia chi-cuadrado . . . . . . . . . . . . . . . . 17spa
dc.description.tableofcontents4.5. Definición de aprendizaje automático (Machine learning) . . . . . . . . . . . . . 18spa
dc.description.tableofcontents4.5.1. Definición de aprendizaje automático supervisado . . . . . . . . . . . . . 18spa
dc.description.tableofcontents4.6. Definición de modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . 19spa
dc.description.tableofcontents4.7. Definición de modelo de clasificación Naive Bayes . . . . . . . . . . . . . . . . . 20spa
dc.description.tableofcontents4.8. Definición de modelo gradient boosting . . . . . . . . . . . . . . . . . . . . . . . 21spa
dc.description.tableofcontents4.9. Definición de modelo de redes neuronales . . . . . . . . . . . . . . . . . . . . . . 23spa
dc.description.tableofcontents4.10. Definición de validación cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . 25spa
dc.description.tableofcontents4.11. Métricas de evaluación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 25spa
dc.description.tableofcontents4.12. Definición de curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27spa
dc.description.tableofcontents5. Metodología 28spa
dc.description.tableofcontents5.1. Pasos del proceso investigativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29spa
dc.description.tableofcontents5.1.1. Selección de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 30spa
dc.description.tableofcontents5.1.2. Limpieza y depuración de los datos . . . . . . . . . . . . . . . . . . . . . 31spa
dc.description.tableofcontents5.1.3. Análisis exploratorio de la población . . . . . . . . . . . . . . . . . . . . 31spa
dc.description.tableofcontents5.1.4. Entrenamiento de los modelos . . . . . . . . . . . . . . . . . . . . . . . . 31spa
dc.description.tableofcontents5.1.5. Selección del mejor modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 34spa
dc.description.tableofcontents6. Resultados 35spa
dc.description.tableofcontents6.1. Análisis exploratorio de la población . . . . . . . . . . . . . . . . . . . . . . . . 35spa
dc.description.tableofcontents6.2. Variables correlacionadas con la decisión de desertar . . . . . . . . . . . . . . . . 39spa
dc.description.tableofcontents6.3. Modelos planteados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40spa
dc.description.tableofcontents6.3.1. Modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . 40spa
dc.description.tableofcontents6.3.2. Modelo Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44spa
dc.description.tableofcontents6.3.3. Modelo Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 45spa
dc.description.tableofcontents6.3.4. Modelo de Redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . 46spa
dc.description.tableofcontents6.4. Evaluación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47spa
dc.description.tableofcontents7. Discusión 49spa
dc.description.tableofcontents8. Conclusiones y recomendaciones 52spa
dc.description.tableofcontents8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52spa
dc.description.tableofcontents8.2. Recomendaciones y trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . 54spa
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad de Córdoba
dc.identifier.reponameRepositorio Universidad de Córdoba
dc.identifier.repourlhttps://repositorio.unicordoba.edu.co/
dc.identifier.urihttps://repositorio.unicordoba.edu.co/handle/ucordoba/7877
dc.language.isospa
dc.publisherUniversidad de Córdoba
dc.publisher.facultyFacultad de Ciencias Básicas
dc.publisher.placeMontería, Córdoba - Colombia
dc.publisher.programEstadística
dc.relation.referencesAponte, J. d. J., González, S. B., and Rincón, H. (2012). Búsqueda de soluciones a la deserción y la mortalidad en el área de matemáticas en el departamento de ciencias básicas de la universidad santo tomás, seccional tunja. Revista Interamericana de Investigación, Educación y Pedagogía, 5(1):65–77.
dc.relation.referencesAyala, H. Y., Valenzuela-Sabogal, G. M., and Espinosa-García, A. (2019). Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de ingeniería de sistemas de la universidad de cundinamarca. Revista Ontare, 7:134–150.
dc.relation.referencesBayes, T. (1763). Lii. an essay towards solving a problem in the doctrine of chances. by the late rev. mr. bayes, frs communicated by mr. price, in a letter to john canton, amfr s. Philosophical transactions of the Royal Society of London, (53):370–418.
dc.relation.referencesBehar, D. (2008). Introducción a la metodología de la investigación. Shalom.
dc.relation.referencesChernoff, H. (1952). A measure of asymptotic efficiency for tests of a hypothesis based on the sum of observations. The Annals of Mathematical Statistics, pages 493–507.
dc.relation.referencesChinome, P. A., Ruiz, C., and Fernandez, L. (2016). Priorización de variables en el diseño de un sistema de gestión integral de la deserción estudiantil. Revista Educación en Ingeniería, 11(22):69–77.
dc.relation.referencesCox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society Series B: Statistical Methodology, 20(2):215–232.
dc.relation.referencesDake, D. K., Buabeng-Andoh, C., et al. (2022). Using machine learning techniques to predict learner drop-out rate in higher educational institutions. Mobile Information Systems, Vol. 2022.
dc.relation.referencesDuncan, O., Coulter, D., Sherer, T., and JiayueHu. (2018). Conceptos de minería de datos. Tomado de: https://learn.microsoft.com/es-es/analysis-services/data-mining/data-miningconcepts? view=asallproducts-allversions.
dc.relation.referencesEstévez, J. A., Castro-Martínez, J., and Granobles, H. R. (2015). La educación virtual en colombia: exposición de modelos de deserción. Apertura, 7(1):1–10.
dc.relation.referencesFriedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, 29(5):1189–1232.
dc.relation.referencesGarzón, A. and Gil, J. (2017). El papel de la procrastinación académica como factor de la deserción universitaria. Revista Complutense de Educación, 28(1):307–324.
dc.relation.referencesGeisser, S. (1993). Predictive inference, volume 55. Chapman and Hall/CRC.
dc.relation.referencesGonzález, F. I. and Arismendi, K. J. (2018). Deserción estudiantil en la educación superior técnico-profesional: Explorando los factores que inciden en alumnos de primer año. Revista de la educación superior, 47(188):109–137.
dc.relation.referencesGonzález, J. C. and Peñaloza, M. J. (2021). Identificación y predicción de estudiantes en riesgo de deserción académica por medio de modelos basados en Machine Learning. Fundación Universitaria Los Libertadores. Sede Bogotá.
dc.relation.referencesGuerrero, S. C. (2023). Deserción universitaria. políticas y vivencias de docentes y estudiantes en una universidad colombiana (2010-2017). Colección Tesis Doctorales UPTCRUDECOLOMBIA, Tomo No. 15, DOI: https://doi.org/10.19053/9789586607735.
dc.relation.referencesHimmel, E. (2002). Modelo de análisis de la deserción estudiantil en la educación superior. Calidad en la Educación, (17):91–108.
dc.relation.referencesKemper, L., Vorhoff, G., and Wigger, B. U. (2020). Predicting student dropout: A machine learning approach. European Journal of Higher Education, 10(1):28–47.
dc.relation.referencesLasaosa, J. M. (2023). Tree ensembles: Bagging, boosting and gradient boosting. Tomado de: https://towardsdatascience.com/tree-ensembles-theory-and-practice-1cf9eb27781.
dc.relation.referencesLeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. nature, 521(7553):436–444.
dc.relation.referencesMadrid, J. I. E. (2017). Propuesta de un modelo estadístico para caracterizar y predecir la deserción estudiantil Universitaria. PhD thesis.
dc.relation.referencesMcCulloch, W. S. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, 5:115–133.
dc.relation.referencesMineducación, M. d. E. S. N. (2012). Taller de capacitación, manejo herramienta spadies. Tomado de: https://ww2.ufps.edu.co/public/archivos/FOLLETO_CAPACITACION_SPADIES.pdf.
dc.relation.referencesMitchell, T. M. (1997). Machine learning. McGraw-Hill Science/Engineering/Math. Tomado de: http://www.worldcat.org/oclc/61321007.
dc.relation.referencesPearson, K. (1900). X. on the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(302):157–175.
dc.relation.referencesPérez, A., Grandón, E. E., Caniupán, M., and Vargas, G. (2013). Análisis comparativo de técnicas de predicción para determinar la deserción estudiantil: Regresión logística vs árboles de decisión. Arquitectura, Vol. 2014:2015. Obtenido de Universidad del Bío Bío, Departamento de Sistemas de Información: https://dsi.face.ubiobio.cl/mcaniupan/pdfs/desercion_cam_ready.pdf.
dc.relation.referencesPérez, M. (2020). Cifras de deserción udes. Technical report, Universidad de Santander. Tomado de: https://udes.edu.co/images/micrositios/calidad/boletines/ boletin_estadistico-9-2020.pdf.
dc.relation.referencesRojas, L. (2014). Predicción de la reprobación de cursos de matemática básicos en las carreras de física, meteorología, matemática, ciencias actuariales y farmacia. Revista Electrónica Educare, 18(3):03–15.
dc.relation.referencesRubin, D. B. and Schenker, N. (1986). Multiple imputation for interval estimation from simple random samples with ignorable nonresponse. Journal of the American statistical Association, 81(394):366–374.
dc.relation.referencesRueda, S. M., Urrego Velásquez, D., Páez Zapata, E., Velásquez, C., and Hernández Ramírez, E. M. (2020). Perfiles de riesgo de deserción en estudiantes de las sedes de una universidad colombiana. Revista de Psicología (PUCP), 38(1):275–297.
dc.relation.referencesRumelhart, D. E., Hinton, G. E., and Williams, R. J. (1986). Learning representations by back-propagating errors. nature, 323(6088):533–536.
dc.relation.referencesSalcedo, A. (2010). Deserción universitaria en colombia. Academia y virtualidad, 3(1):50–60.
dc.relation.referencesSamuel, A. L. (1959). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 3(3):210–229.
dc.relation.referencesSotomonte, J. E., Rodríguez-Rodríguez, C. C., Montenegro-Marín, C. E., Gaona-García, P. A., Castellanos, J. G., et al. (2016). Hacia la construcción de un modelo predictivo de deserción académica basado en técnicas de minería de datos. Revista científica, 26:37–52.
dc.relation.referencesSPADIES (2011). Investigación sobre deserción en las instituciones de educacion superior en colombia. Tomado de: https://www.mineducacion.gov.co/sistemasdeinformacion/1735/w3- article-254707.html?_noredirect=1: :text=Desertor
dc.relation.referencesSPADIES (2023). Estadísticas de deserción y permanencia en educación superior spadies 3.0 - indicadores 2021. Technical report, SPADIES. Tomado de: https://www.mineducacion.gov.co/sistemasinfo/spadies/secciones/Estadisticas-dedesercion/.
dc.relation.referencesTinto, V. (1982). Limits of theory and practice in student attrition. The journal of higher education, 53(6):687–700.
dc.relation.referencesUnesco, editor (2022). Reinventando la Educación Superior para un Futuro Sostenible. Tomado de: https://en.unesco.org/sites/default/files/whec2022-concept-note-es.pdf.
dc.relation.referencesVanderPlas, J. (2016). Python data science handbook: Essential tools for working with data. O’Reilly Media, Inc.
dc.rightsCopyright Universidad de Córdoba, 2023
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.ddc510 - Matemáticas
dc.subject.keywordsDropout
dc.subject.keywordsHigher education
dc.subject.keywordsClassification models
dc.subject.keywordsMachine learning
dc.subject.proposalDeserciónspa
dc.subject.proposalEducación superiorspa
dc.subject.proposalModelos de clasificaciónspa
dc.subject.proposalAprendizaje automáticospa
dc.titleEntrenamiento de modelos de aprendizaje automático para clasificar estudiantes en posibles desertores o no desertores, en programas académicos de la Universidad de Córdoba
dc.typeTrabajo de grado - Pregrado
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
hoyosvegajhonjeiller.pdf
Tamaño:
2.17 MB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
formato de autorización.pdf
Tamaño:
238.96 KB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
15.18 KB
Formato:
Item-specific license agreed upon to submission
Descripción: