Veinte años de música, cuatro de espera y unas navidades
Lo que en 2022 era un TFM inviable como producto, hoy procesa 500 episodios y 600 horas de podcast por 200 euros, con corrección semántica incluida.
Veinte años de música, cuatro de espera y unas navidades
Hace unas semanas escribí que estas navidades había terminado un proyecto que llevaba dos años madurando y que la ejecución había sido cuestión de días. Que era como recibir una herramienta alienígena sin manual. Hoy os cuento de qué va. Es una historia de música, de amistad y de lo que pasa cuando una idea que la tecnología no podía ejecutar de repente se vuelve posible.
La enciclopedia galáctica
En 2022, como proyecto de fin de máster en el Instituto de Inteligencia Artificial, presenté algo llamado “La Enciclopedia Galáctica de la Industria Musical”. El nombre era un guiño a Asimov, pero la idea era seria; coger más de 200 entrevistas del podcast “Simpatía por la Industria Musical” de Subterfuge Radio, convertir todo ese audio a texto, extraer entidades (personas, sellos discográficos, lugares) y construir una ontología navegable. Una enciclopedia interactiva de la industria musical española, construida a partir de la voz de sus protagonistas.
El TFM funcionó bien como ejercicio académico, pero como producto real tenía un problema y es que la tecnología no estaba lista. La transcripción de audio en español era cara y mediocre. El reconocimiento de entidades funcionaba en papers pero se rompía con conversaciones reales llenas de solapamientos, anglicismos y nombres propios que ningún modelo conocía. Cada paso del proceso requería supervisión manual intensiva.
Archivé la idea, pero no la olvidé.
Jaime y sus 500 programas
Jaime Cristóbal es un amigo, músico y melómano que lleva haciendo Popcasting desde mayo de 2005. Cada quince días graba un programa donde selecciona y comenta canciones de todas las épocas: clásicos de los años 20, novedades de la última semana, pop, rock, country, canción francesa, italodisco… Lo que las une es un criterio sencillo, que la canción emocione, da igual cuándo se grabó o quién la cante.
Veinte años después, el podcast sigue ahí. Más de 500 programas, más de 600 horas de audio, más de 8.000 canciones comentadas. Un archivo cultural descomunal que vive atrapado en formato secuencial. Para encontrar aquella canción que sonó en aquel programa de hace años tienes que recordar el número del episodio o tener mucha suerte (o llamar a Jaime, que lo archiva en su cabeza 😎.
Cuando vi el volumen de lo que Jaime había acumulado reconocí el problema. Era exactamente el mismo que el de mi TFM pero en otro dominio; cientos de horas de narración oral, desestructurada, subjetiva, llena de información valiosa que no había forma de navegar.
Lo que cambió
La diferencia entre 2022 y hoy no es que yo sea ahora un buen programador, es que las herramientas son radicalmente distintas.
En 2022, transcribir 600 horas de audio en español con calidad aceptable era un proyecto en sí mismo. Había que preprocesar el audio, trocearlo, lidiar con modelos de reconocimiento de voz entrenados principalmente en inglés, y luego revisar manualmente cada transcripción porque los errores eran constantes. Y eso era solo el primer paso. Después venía la extracción de entidades, que requería modelos de NLP ajustados a mano para un dominio que no se parece en nada a los datasets académicos.
Hoy, el sistema funciona así: un modelo de verificación de voz tiene un perfil acústico de Jaime y distingue cuándo habla él de cuándo suena una canción, con un 98% de precisión. Solo envía a transcribir los segmentos donde habla, lo que reduce el coste un 75% y elimina el ruido. La transcripción genera timestamps a nivel de palabra. Y aquí es donde entra lo realmente nuevo: un LLM revisa el texto usando la playlist del episodio como contexto. No es una corrección ortográfica; el modelo entiende que si en la playlist hay un artista llamado “Morrissey”, probablemente “Morrisey” en la transcripción es un error del reconocimiento de voz, no una persona diferente. “Los The Smiths” se queda en “The Smiths”. El contexto es lo que permite que la corrección sea inteligente, no solo mecánica.
Las correcciones que la IA no puede hacer las hacen los propios oyentes. Desde la web cualquiera puede sugerir cambios que luego se revisan y aplican. Porque si hay alguien que sabe que Jaime dijo “Marianne Dissard” y no “Marianne Dissart”, son las personas que llevamos años escuchándole. Es un pipeline donde cada capa (separación de voz, transcripción, corrección automática, corrección humana) hace lo que mejor sabe hacer.
Lo que en 2022 hubiera sido un proyecto profesional de meses con presupuesto, ahora procesa un episodio en minutos por menos de 15 céntimos. Los 500 episodios completos tuvieron un coste de unos 200 euros (más las horas de dedicación, pero eso es vicio y no se cobra 😊).
El resultado
Popcasting History es una web donde puedes buscar por artista, canción, fecha o número de programa, ver qué sonó y leer las transcripciones sincronizadas con el audio. Haces clic en una palabra y el audio salta a ese momento exacto. Buscas “Bowie” y aparecen todos los episodios donde Jaime habla de él, y puedes consultar el contexto de lo que dijo. Es lo que debería haber sido siempre; una forma de explorar, no solo de escuchar en orden.
Lo que viene
Pero esto es solo la primera fase. La que me tiene realmente enganchado es exactamente la que quedó como “evolución futura” en aquel TFM de 2022: el grafo de conocimiento.
La idea es usar una combinación de grafos y búsqueda semántica para descubrir conexiones entre músicos, canciones, épocas y géneros. No solo “en qué episodios sale Springsteen”, sino “qué artistas conecta Jaime con Springsteen”, “qué canciones de los 60 aparecen junto a canciones de los 90”, o por qué ciertos nombres vuelven una y otra vez en contextos inesperados. Las relaciones que existen en la cabeza de alguien que lleva veinte años conectando música, pero que nunca se han hecho explícitas.
El círculo
Hace cuatro años, “La Enciclopedia Galáctica de la Industria Musical” era un proyecto fin de máster: ambicioso, académicamente interesante, técnicamente inviable como producto real. Hoy, algo más ambicioso (más episodios, más horas, transcripción automática, correcciones colaborativas, y un grafo de conocimiento en camino) es un side project que construyo en mi tiempo libre para complementar el trabajo titánico de un amigo. No porque la visión fuera menos ambiciosa entonces, sino porque las herramientas por fin están a la altura de la idea.
Y creo que ahí está la reflexión que más me interesa compartir. Cuando hablamos de IA, la conversación suele girar alrededor de los mismos casos de uso: chatbots, resúmenes, generación de contenido. Pero las aplicaciones más interesantes no son las genéricas, son las de nicho. Problemas que solo alguien con conocimiento de un dominio específico pensaría en resolver, y que hasta hace poco requerían equipos y presupuestos que los hacían inviables. Convertir 600 horas de narración musical en una enciclopedia navegable no es un caso de uso que aparezca en ningún pitch deck de IA; es el tipo de proyecto que nace cuando alguien que entiende un problema tiene acceso a herramientas que por fin pueden resolverlo.
El cuello de botella ya no es la tecnología. Es saber qué construir y para quién. Jaime lleva veinte años construyendo un archivo musical extraordinario, programa a programa, canción a canción. Mi pequeña contribución es intentar que todo ese trabajo sea un poco más fácil de explorar.