Publicación: Entrenamiento de modelos de aprendizaje automático para clasificar estudiantes en posibles desertores o no desertores, en programas académicos de la Universidad de Córdoba
dc.contributor.advisor | Morales Rivera, Mario Alfonso | |
dc.contributor.advisor | Pérez Cantero, Kevin Luis | |
dc.contributor.author | Hoyos Vega, Jhon Jeiller | |
dc.date.accessioned | 2023-11-10T18:51:55Z | |
dc.date.available | 2023-11-10T18:51:55Z | |
dc.date.issued | 2023-11-10 | |
dc.description.abstract | El objetivo de esta investigación se fundamenta en la aplicación de algoritmos de aprendizaje automático supervisado como el de regresión logística, Naive Bayes, gradient boosting y redes neuronales, para clasificar a los estudiantes de los programas de matemáticas y estadística de la Universidad de Córdoba, en el lugar de desarrollo ubicado en Montería, en posibles desertores o no desertores del programa, a partir de información de variables socioeconómicas y académicas de los estudiantes al momento de ingresar, como la edad, el puntaje ICFES en matemáticas, el promedio acumulado ponderado y otras que resultan significativas en los estudios de deserción estudiantil y que se tenían disponibles. El estudio contó con una muestra de 852 estudiantes de estos programas que presentaron matrícula académica durante las cohortes de 2015-1 hasta 2021-2, con lo cual se dispuso de un tamaño de muestra suficiente para el entrenamiento y evaluación de los modelos por medio de la aplicación de validación cruzada. Los principales hallazgos en esta investigación muestran que los cuatro algoritmos considerados alcanzan precisiones similares y por encima del 73 %, evidenciando que la información disponible es suficiente para hacer una buena clasificación de estos estudiantes, entre los que pueden optar por abandonar o no sus estudios universitarios. | spa |
dc.description.abstractenglish | The objective of this research is based on the application of supervised machine learning algorithms such as logistic regression, Naive Bayes, Gradient boosting, and neural networks, to classify from the mathematics and statistics programs at the University of Córdoba, located in Montería, as potential dropouts or non-dropouts from the program, based on socioeconomic and academic variables of the students at the time of entry, such as age, ICFES score in mathematics, weighted cumulative average, and others that are significant in student dropout studies and were available. The study had a sample of 852 students from these programs who registered for academic enrollment during the cohorts from 2015-1 to 2021-2, thus providing a sufficient sample size for the training and evaluation of the models through the application of cross-validation. The main findings in the research show that the four algorithms considered achieve similar accuracies and above 73 %, showing that the available information is sufficient to make a good classification of these students, among those who may choose to drop out or not from their university studies. | eng |
dc.description.degreelevel | Pregrado | |
dc.description.degreename | Estadístico(a) | |
dc.description.modality | Trabajos de Investigación y/o Extensión | |
dc.description.tableofcontents | Resumen v | spa |
dc.description.tableofcontents | Agradecimientos vii | spa |
dc.description.tableofcontents | 1. Introducción 1 | spa |
dc.description.tableofcontents | 2. Objetivos 6 | spa |
dc.description.tableofcontents | 2.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 | spa |
dc.description.tableofcontents | 2.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 | spa |
dc.description.tableofcontents | 3. Marco teórico 7 | spa |
dc.description.tableofcontents | 4. Marco conceptual 14 | spa |
dc.description.tableofcontents | 4.1. Definición de deserción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 | spa |
dc.description.tableofcontents | 4.2. Definición de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 | spa |
dc.description.tableofcontents | 4.3. Definición de coeficiente de correlación de rango de Kendall . . . . . . . . . . . . 15 | spa |
dc.description.tableofcontents | 4.4. Definición de prueba de independencia chi-cuadrado . . . . . . . . . . . . . . . . 17 | spa |
dc.description.tableofcontents | 4.5. Definición de aprendizaje automático (Machine learning) . . . . . . . . . . . . . 18 | spa |
dc.description.tableofcontents | 4.5.1. Definición de aprendizaje automático supervisado . . . . . . . . . . . . . 18 | spa |
dc.description.tableofcontents | 4.6. Definición de modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . 19 | spa |
dc.description.tableofcontents | 4.7. Definición de modelo de clasificación Naive Bayes . . . . . . . . . . . . . . . . . 20 | spa |
dc.description.tableofcontents | 4.8. Definición de modelo gradient boosting . . . . . . . . . . . . . . . . . . . . . . . 21 | spa |
dc.description.tableofcontents | 4.9. Definición de modelo de redes neuronales . . . . . . . . . . . . . . . . . . . . . . 23 | spa |
dc.description.tableofcontents | 4.10. Definición de validación cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 | spa |
dc.description.tableofcontents | 4.11. Métricas de evaluación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 25 | spa |
dc.description.tableofcontents | 4.12. Definición de curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 | spa |
dc.description.tableofcontents | 5. Metodología 28 | spa |
dc.description.tableofcontents | 5.1. Pasos del proceso investigativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 | spa |
dc.description.tableofcontents | 5.1.1. Selección de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 | spa |
dc.description.tableofcontents | 5.1.2. Limpieza y depuración de los datos . . . . . . . . . . . . . . . . . . . . . 31 | spa |
dc.description.tableofcontents | 5.1.3. Análisis exploratorio de la población . . . . . . . . . . . . . . . . . . . . 31 | spa |
dc.description.tableofcontents | 5.1.4. Entrenamiento de los modelos . . . . . . . . . . . . . . . . . . . . . . . . 31 | spa |
dc.description.tableofcontents | 5.1.5. Selección del mejor modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 34 | spa |
dc.description.tableofcontents | 6. Resultados 35 | spa |
dc.description.tableofcontents | 6.1. Análisis exploratorio de la población . . . . . . . . . . . . . . . . . . . . . . . . 35 | spa |
dc.description.tableofcontents | 6.2. Variables correlacionadas con la decisión de desertar . . . . . . . . . . . . . . . . 39 | spa |
dc.description.tableofcontents | 6.3. Modelos planteados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 | spa |
dc.description.tableofcontents | 6.3.1. Modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . 40 | spa |
dc.description.tableofcontents | 6.3.2. Modelo Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 | spa |
dc.description.tableofcontents | 6.3.3. Modelo Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 45 | spa |
dc.description.tableofcontents | 6.3.4. Modelo de Redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . 46 | spa |
dc.description.tableofcontents | 6.4. Evaluación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 | spa |
dc.description.tableofcontents | 7. Discusión 49 | spa |
dc.description.tableofcontents | 8. Conclusiones y recomendaciones 52 | spa |
dc.description.tableofcontents | 8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 | spa |
dc.description.tableofcontents | 8.2. Recomendaciones y trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . 54 | spa |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | Universidad de Córdoba | |
dc.identifier.reponame | Repositorio Universidad de Córdoba | |
dc.identifier.repourl | https://repositorio.unicordoba.edu.co/ | |
dc.identifier.uri | https://repositorio.unicordoba.edu.co/handle/ucordoba/7877 | |
dc.language.iso | spa | |
dc.publisher | Universidad de Córdoba | |
dc.publisher.faculty | Facultad de Ciencias Básicas | |
dc.publisher.place | Montería, Córdoba - Colombia | |
dc.publisher.program | Estadística | |
dc.relation.references | Aponte, J. d. J., González, S. B., and Rincón, H. (2012). Búsqueda de soluciones a la deserción y la mortalidad en el área de matemáticas en el departamento de ciencias básicas de la universidad santo tomás, seccional tunja. Revista Interamericana de Investigación, Educación y Pedagogía, 5(1):65–77. | |
dc.relation.references | Ayala, H. Y., Valenzuela-Sabogal, G. M., and Espinosa-García, A. (2019). Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de ingeniería de sistemas de la universidad de cundinamarca. Revista Ontare, 7:134–150. | |
dc.relation.references | Bayes, T. (1763). Lii. an essay towards solving a problem in the doctrine of chances. by the late rev. mr. bayes, frs communicated by mr. price, in a letter to john canton, amfr s. Philosophical transactions of the Royal Society of London, (53):370–418. | |
dc.relation.references | Behar, D. (2008). Introducción a la metodología de la investigación. Shalom. | |
dc.relation.references | Chernoff, H. (1952). A measure of asymptotic efficiency for tests of a hypothesis based on the sum of observations. The Annals of Mathematical Statistics, pages 493–507. | |
dc.relation.references | Chinome, P. A., Ruiz, C., and Fernandez, L. (2016). Priorización de variables en el diseño de un sistema de gestión integral de la deserción estudiantil. Revista Educación en Ingeniería, 11(22):69–77. | |
dc.relation.references | Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society Series B: Statistical Methodology, 20(2):215–232. | |
dc.relation.references | Dake, D. K., Buabeng-Andoh, C., et al. (2022). Using machine learning techniques to predict learner drop-out rate in higher educational institutions. Mobile Information Systems, Vol. 2022. | |
dc.relation.references | Duncan, O., Coulter, D., Sherer, T., and JiayueHu. (2018). Conceptos de minería de datos. Tomado de: https://learn.microsoft.com/es-es/analysis-services/data-mining/data-miningconcepts? view=asallproducts-allversions. | |
dc.relation.references | Estévez, J. A., Castro-Martínez, J., and Granobles, H. R. (2015). La educación virtual en colombia: exposición de modelos de deserción. Apertura, 7(1):1–10. | |
dc.relation.references | Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, 29(5):1189–1232. | |
dc.relation.references | Garzón, A. and Gil, J. (2017). El papel de la procrastinación académica como factor de la deserción universitaria. Revista Complutense de Educación, 28(1):307–324. | |
dc.relation.references | Geisser, S. (1993). Predictive inference, volume 55. Chapman and Hall/CRC. | |
dc.relation.references | González, F. I. and Arismendi, K. J. (2018). Deserción estudiantil en la educación superior técnico-profesional: Explorando los factores que inciden en alumnos de primer año. Revista de la educación superior, 47(188):109–137. | |
dc.relation.references | González, J. C. and Peñaloza, M. J. (2021). Identificación y predicción de estudiantes en riesgo de deserción académica por medio de modelos basados en Machine Learning. Fundación Universitaria Los Libertadores. Sede Bogotá. | |
dc.relation.references | Guerrero, S. C. (2023). Deserción universitaria. políticas y vivencias de docentes y estudiantes en una universidad colombiana (2010-2017). Colección Tesis Doctorales UPTCRUDECOLOMBIA, Tomo No. 15, DOI: https://doi.org/10.19053/9789586607735. | |
dc.relation.references | Himmel, E. (2002). Modelo de análisis de la deserción estudiantil en la educación superior. Calidad en la Educación, (17):91–108. | |
dc.relation.references | Kemper, L., Vorhoff, G., and Wigger, B. U. (2020). Predicting student dropout: A machine learning approach. European Journal of Higher Education, 10(1):28–47. | |
dc.relation.references | Lasaosa, J. M. (2023). Tree ensembles: Bagging, boosting and gradient boosting. Tomado de: https://towardsdatascience.com/tree-ensembles-theory-and-practice-1cf9eb27781. | |
dc.relation.references | LeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. nature, 521(7553):436–444. | |
dc.relation.references | Madrid, J. I. E. (2017). Propuesta de un modelo estadístico para caracterizar y predecir la deserción estudiantil Universitaria. PhD thesis. | |
dc.relation.references | McCulloch, W. S. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, 5:115–133. | |
dc.relation.references | Mineducación, M. d. E. S. N. (2012). Taller de capacitación, manejo herramienta spadies. Tomado de: https://ww2.ufps.edu.co/public/archivos/FOLLETO_CAPACITACION_SPADIES.pdf. | |
dc.relation.references | Mitchell, T. M. (1997). Machine learning. McGraw-Hill Science/Engineering/Math. Tomado de: http://www.worldcat.org/oclc/61321007. | |
dc.relation.references | Pearson, K. (1900). X. on the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(302):157–175. | |
dc.relation.references | Pérez, A., Grandón, E. E., Caniupán, M., and Vargas, G. (2013). Análisis comparativo de técnicas de predicción para determinar la deserción estudiantil: Regresión logística vs árboles de decisión. Arquitectura, Vol. 2014:2015. Obtenido de Universidad del Bío Bío, Departamento de Sistemas de Información: https://dsi.face.ubiobio.cl/mcaniupan/pdfs/desercion_cam_ready.pdf. | |
dc.relation.references | Pérez, M. (2020). Cifras de deserción udes. Technical report, Universidad de Santander. Tomado de: https://udes.edu.co/images/micrositios/calidad/boletines/ boletin_estadistico-9-2020.pdf. | |
dc.relation.references | Rojas, L. (2014). Predicción de la reprobación de cursos de matemática básicos en las carreras de física, meteorología, matemática, ciencias actuariales y farmacia. Revista Electrónica Educare, 18(3):03–15. | |
dc.relation.references | Rubin, D. B. and Schenker, N. (1986). Multiple imputation for interval estimation from simple random samples with ignorable nonresponse. Journal of the American statistical Association, 81(394):366–374. | |
dc.relation.references | Rueda, S. M., Urrego Velásquez, D., Páez Zapata, E., Velásquez, C., and Hernández Ramírez, E. M. (2020). Perfiles de riesgo de deserción en estudiantes de las sedes de una universidad colombiana. Revista de Psicología (PUCP), 38(1):275–297. | |
dc.relation.references | Rumelhart, D. E., Hinton, G. E., and Williams, R. J. (1986). Learning representations by back-propagating errors. nature, 323(6088):533–536. | |
dc.relation.references | Salcedo, A. (2010). Deserción universitaria en colombia. Academia y virtualidad, 3(1):50–60. | |
dc.relation.references | Samuel, A. L. (1959). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 3(3):210–229. | |
dc.relation.references | Sotomonte, J. E., Rodríguez-Rodríguez, C. C., Montenegro-Marín, C. E., Gaona-García, P. A., Castellanos, J. G., et al. (2016). Hacia la construcción de un modelo predictivo de deserción académica basado en técnicas de minería de datos. Revista científica, 26:37–52. | |
dc.relation.references | SPADIES (2011). Investigación sobre deserción en las instituciones de educacion superior en colombia. Tomado de: https://www.mineducacion.gov.co/sistemasdeinformacion/1735/w3- article-254707.html?_noredirect=1: :text=Desertor | |
dc.relation.references | SPADIES (2023). Estadísticas de deserción y permanencia en educación superior spadies 3.0 - indicadores 2021. Technical report, SPADIES. Tomado de: https://www.mineducacion.gov.co/sistemasinfo/spadies/secciones/Estadisticas-dedesercion/. | |
dc.relation.references | Tinto, V. (1982). Limits of theory and practice in student attrition. The journal of higher education, 53(6):687–700. | |
dc.relation.references | Unesco, editor (2022). Reinventando la Educación Superior para un Futuro Sostenible. Tomado de: https://en.unesco.org/sites/default/files/whec2022-concept-note-es.pdf. | |
dc.relation.references | VanderPlas, J. (2016). Python data science handbook: Essential tools for working with data. O’Reilly Media, Inc. | |
dc.rights | Copyright Universidad de Córdoba, 2023 | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.license | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject.ddc | 510 - Matemáticas | |
dc.subject.keywords | Dropout | |
dc.subject.keywords | Higher education | |
dc.subject.keywords | Classification models | |
dc.subject.keywords | Machine learning | |
dc.subject.proposal | Deserción | spa |
dc.subject.proposal | Educación superior | spa |
dc.subject.proposal | Modelos de clasificación | spa |
dc.subject.proposal | Aprendizaje automático | spa |
dc.title | Entrenamiento de modelos de aprendizaje automático para clasificar estudiantes en posibles desertores o no desertores, en programas académicos de la Universidad de Córdoba | |
dc.type | Trabajo de grado - Pregrado | |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | |
dc.type.content | Text | |
dc.type.driver | info:eu-repo/semantics/bachelorThesis | |
dc.type.version | info:eu-repo/semantics/acceptedVersion | |
dspace.entity.type | Publication |
Archivos
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 15.18 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: