Caicedo Castro, IsaacArgüelles Monterrosa, Carlos de JesúsMeléndez Armella, Lila Vanessa2023-12-212023-12-212023-12-20https://repositorio.unicordoba.edu.co/handle/ucordoba/8001Este trabajo proviene de la carencia de orientación vocacional para los jóvenes Colombianos acerca de la elección de una carrera de pregrado acorde a sus aptitudes. Por lo tanto, nos encaminamos a diseñar un sistema inteligente que permita identificar las aptitudes para el estudio de carreras STEM basado en los resultados de las pruebas estandarizadas Saber 11 en la Universidad de Córdoba. Para lo cual, realizamos una encuesta de la cual obtuvimos 84 observaciones, que fue dirigida a una diversidad de estudiantes de distintas facultades y/o carreras, sobre todo de ingeniería, quienes ingresaron los resultados que obtuvieron en la Saber 11, las cuales son un requisito para ingresar a la educación superior en Colombia. A partir de los datos se evaluaron modelos de aprendizaje automático con la finalidad de encontrar la dependencia funcional entre los resultados y su rendimiento académico en la carrera escogida, medido por el promedio global acumulado (PGA). De los resultados de la evaluación de estos modelos, obtuvimos una exactitud de 75 %, una precisión de 66,19 %, una sensibilidad de 84,13 % y una media armónica (F1) de 72,04 % con el modelo Naïve Bayes. Esto marca un inicio significativo para la implementación del aprendizaje automático en el ámbito educativo, especialmente en las universidades públicas de Colombia. Este avance sienta las bases para investigaciones futuras más precisas que utilicen tecnología con el objetivo de ofrecer orientación más detallada a los jóvenes. Además, la recopilación de datos de la generación actual contribuirá a obtener resultados más exactos.This work stems from young Colombians’ lack of career guidance in choosing an undergraduate career that matches their abilities. Therefore, we set out to design an intelligent system that would allow the identification of aptitudes for STEM (Science, Technology, Engineering, and Mathematics) careers based on the results of the Saber 11 standardized tests at the University of Córdoba. To achieve this, we conducted a survey from which we obtained 84 instances, targeting a diverse group of students from diverse faculties and/or careers, especially in engineering. Participants reported their scores on the Saber 11 test, which is a requirement for admission to higher education in Colombia. From the collected data, we evaluated a few machine learning models to find the functional dependence between the results of each component of the Saber 11 test, and the academic performance in the chosen career, measured by the grade point average (GPA). The results of the evaluation include an accuracy of 75 %, a precision of 66.19 %, a sensitivity of 84.13 %, and an F1 score of 72.04 % from the naive Bayes model. This work represents a significant beginning for the machine learning implementation in the educational field, especially in public universities in Colombia. This advancement lays the groundwork for more precise future research that utilizes technology intending to provide more detailed guidance to young people. In addition, collecting data from the current generation will contribute to obtaining more accurate results.Agradecimientos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IResumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIAbstract. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIIListado de tablasListado de figuras1. INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Descripción y formulación del problema . . . . . . . . . . . . . . . . . . . . . . . 21.1.1. Descripción del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2. Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3. Contribución de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.4. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82. OBJETIVOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1. General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2. Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93. REVISIÓN BIBLIOGRÁFICA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.1. Aprendizaje Automático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.1.1. Aprendizaje Supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.1.2. Aprendizaje No Supervisado . . . . . . . . . . . . . . . . . . . . . . . . . 113.1.3. Aprendizaje Semi-Supervisado . . . . . . . . . . . . . . . . . . . . . . . . 113.1.4. Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . . 113.1.5. Aprendizaje Automático Automatizado (AutoML) . . . . . . . . . . . . . 123.2. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2.1. Regresión Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2.2. Naïve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2.3. Árbol de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2.4. Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.2.5. Extra Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2.6. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2.7. Quantum Support Vector Machines . . . . . . . . . . . . . . . . . . . . . 163.2.8. Potenciación adaptativa (AdaBoost) . . . . . . . . . . . . . . . . . . . . . 173.2.9. Potenciación del gradiente (Gradient Boosting) . . . . . . . . . . . . . . . 173.3. Métodos de AutoML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3.1. Hiperparametrización de parámetros . . . . . . . . . . . . . . . . . . . . . 183.3.2. Meta-aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3.3. Búsqueda de arquitectura neural (Neural architecture search) . . . . . . . . 223.4. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224. ESTADO DEL ARTE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.1. Contexto Internacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.2. Contexto Nacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.3. Contexto Regional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.4. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305. MATERIALES Y MÉTODOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.1. El conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.2. Selección y configuración de algoritmos . . . . . . . . . . . . . . . . . . . . . . . 335.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.3.1. Arquitectura de la aplicación . . . . . . . . . . . . . . . . . . . . . . . . . 365.4. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.4.1. K-Fold Cross Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.4.2. Métricas de Evaluación de Algoritmos . . . . . . . . . . . . . . . . . . . . 405.5. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426. RESULTADOS Y DISCUSIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.1.1. El conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.1.2. Evaluación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.1.3. Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496.2. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537. CONCLUSIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558. RECOMENDACIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579. BIBLIOGRAFÍA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58application/pdfspaCopyright Universidad de Córdoba, 2023Diseño de un sistema que permite identificar las aptitudes para el estudio de carreras stem basado en los resultados de las pruebas estandarizadas icfes saber 11Trabajo de grado - PregradoAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)info:eu-repo/semantics/openAccessOrientación vocacionalPruebas Saber 11Aprendizaje automáticoSTEMVocational guidanceSaber 11 testMachine learningSTEMUniversidad de CórdobaRepositorio Universidad de Córdobahttps://repositorio.unicordoba.edu.co/http://purl.org/coar/access_right/c_abf2