Gómez Gómez, Jorge EliecerRuiz Melendres, Jaime Andrés2024-07-232024-07-232024-07-11https://repositorio.unicordoba.edu.co/handle/ucordoba/8428El documento aborda la problemática de la transcripción manual de sesiones municipales en Planeta Rica. Se investiga sobre el uso de herramientas de código abierto para automatizar la transcripción de audio a texto en estas sesiones, con el objetivo de mejorar la eficiencia y la precisión de este proceso. Se destaca la importancia de la integración de modelos en el sistema para abordar diferentes aspectos y mejorar la calidad de las transcripciones. En este sentido, se mencionan dos modelos de inteligencia artificial: Whisper de OpenAI y Spleeter de Deezer. Whisper es un modelo de reconocimiento de voz de propósito general. Por otro lado, Spleeter es una herramienta de separación de pistas de audio que utiliza modelos previamente entrenados para separar las voces de cualquier pista de audio. Además, se desarrolla una arquitectura que permite la integración de estos modelos de forma automática. Esta arquitectura se basa en el uso de Python para el manejo de los modelos de inteligencia artificial, mientras que el backend de la aplicación se desarrolla con Go y el frontend con Next.js/React. Lo que permitio la automatización de las transcripciones de las sesiones del concejo municipal de Planeta Rica, mejorando la eficiencia y la precisión del proceso.The document addresses the issue of manually transcribing municipal sessions in Planeta Rica. It investigates the use of open-source tools to automate the transcription of audio to text in these sessions with the aim of improving efficiency and accuracy in this process. The importance of integrating models into the system to address different aspects and enhance transcription quality is emphasized. In this regard, two artificial intelligence models are mentioned: OpenAI’s Whisper and Deezer’s Spleeter. Whisper is a general-purpose speech recognition model. On the other hand, Spleeter is an audio track separation tool that utilizes pre-trained models to separate voices from any audio track. Furthermore, an architecture is developed to enable the automatic integration of these models. This architecture is based on the use of Python for managing the artificial intelligence models, while the application’s backend is developed using Go and the frontend with Next.js/React. This allowed for the automation of transcriptions for Planeta Rica’s municipal council sessions, improving both efficiency and precision in the process.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 DESCRIPCIÓN Y FORMULACIÓN DEL PROBLEMA . . . . . . . . . . . . . . . . . . . . 43 JUSTIFICACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.2. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 ESTADO DEL ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.1. La inteligencia artificial (IA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.1.1. ¿Qué es? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.2. Aplicación de Modelos Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.2.1. ¿Qué es? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.3. Aplicación de Redes Neuronales Convolucionales . . . . . . . . . . . . . . . . . . . . . . . . . . 156.3.1. ¿Qué son? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156.4. Aplicación de Procesamiento de Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166.4.1. ¿Qué es? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166.5. Conversión de Audio a Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176.5.1. ¿Qué es? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176.6. Herramienta de separacion de pistas Deezer/Spleeter. [17] . . . . . . . . . . . . . . . . . . . . . 186.7. Herramienta de transcripcion de audio a texto Whisper . . . . . . . . . . . . . . . . . . . . . . . 196.8. Servicios web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227.1. Fases de desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227.2. Proceso de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227.2.1. Fase I: Estudio, análisis e interpretación de estudios previos . . . . . . . . . . . . . . . . 227.2.2. Fase II: Modelado de arquitectura del sistema . . . . . . . . . . . . . . . . . . . . . . . . 237.2.3. Fase III: Implementación de prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237.2.4. Fase IV: Evaluación del prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237.3. FLUJO DE INFORMACIÓN DEL PROYECTO . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 DISEÑO ARQUITECTÓNICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258.1. Requerimientos funcionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258.1.1. Sistema de inicio de sesión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258.1.2. Visualización de listado de transcripciones realizadas . . . . . . . . . . . . . . . . . . . 258.1.3. Botón para creación de transcripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268.1.4. Formulario de creación de transcripción . . . . . . . . . . . . . . . . . . . . . . . . . . . 268.1.5. Sistema de división de archivos de audio . . . . . . . . . . . . . . . . . . . . . . . . . . 278.2. DIAGRAMAS DE CASO DE USO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278.2.1. Casos de uso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288.3. Diagramas de secuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298.3.1. Creación de transcripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298.4. Diagramas de estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308.5. Diseño de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Análisis y Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329.1. Velocidad de separacion de pistas con Deezer/Spleeter . . . . . . . . . . . . . . . . . . . . . . . 329.2. Transcripción de audio a texto con Whisper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3410 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37application/pdfspaCopyright Universidad de Córdoba, 2024Transcripción de audio a texto sesiones municipales en planetariaTrabajo de grado - PregradoAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)info:eu-repo/semantics/openAccessInteligencia artificialAudio-to-textTranscripciónSesionesWhisperSpleeterInteligencia artificialAudio-to-textTranscripciónSesionesWhisperSpleeterUniversidad de CórdobaRepositorio universidad de Córdobahttps://repositorio.unicordoba.edu.co/homehttp://purl.org/coar/access_right/c_abf2