MUltimodal and Self-supervised Approaches for MUsic Transcription

GENERAL INFO
  •  Project Coordinator(s): José Javier Valero Mas
  •  Funding: Conselleria de Educación, Universidades y Empleo, Generalitat Valenciana
  •  Reference:: CIGE/2023/216
  •  Budget: 15.900€
  •  Period: From 01/01/2024 to 31/12/2025
  •  Date: July 22, 2024
MEMBERS
Summary
La transcripción automática de música (Automatic Music Transcription, AMT) es el área de investigación dedicada a estudiar y diseñar algoritmos que obtengan una abstracción de alto nivel e interpretable por medios computacionales del contenido musical de una señal sonora. Este área ha ido paulatinamente cobrando mayor importancia en el terreno de la informática musical, llegando incluso a catalogarse como el "Santo Grial en el campo del análisis musical" siendo también destacable que, aunque los músicos adecuadamente entrenados son capaces de transcribir piezas de oído, todavía no existe un sistema informático capaz de hacerlo con un rendimiento comparable. Dada la gran complejidad de la tarea, el desarrollo histórico de estos sistemas se ha visto limitado a una transcripción basada en descripciones por eventos sonoros, es decir, listas en las que únicamente se detallan los instantes de comienzo y fin de notas musicales. Sin embargo, recientes avances en este campo han posibilitado la aparición de sistemas de transcripción capaces de obtener representaciones musicales a nivel de partitura, normalmente basadas en modelos neuronales profundos. Este nuevo paradigma, típicamente denominado “transcripción audio a partitura” (audio-to-score transcription, A2S) busca obtener una representación de partitura digital construida en base a unas primitivas musicales. Sin embargo, debido a su reciente definición, el campo de A2S exhibe una gran cantidad de problemas y cuestiones de base que limitan su desarrollo. En este proyecto nos centraremos en dos ideas particulares para tratar algunas de estas limitaciones: (i) por un lado, estudiaremos el uso de un paradigma multimodal para intentar combatir el estancamiento en la bondad de los métodos que se observa en las propuestas actuales; (ii) por otro lado, atacaremos el problema de la escasez de datos etiquetados mediante técnicas de aprendizaje auto-supervisado que permitirán el uso de datos no etiquetados para entrenar los modelos de reconocimiento. Es de esperar que el desarrollo de estos paradigmas suponga un avance remarcable no sólo del campo de la transcripción A2S sino también de las ramas de aprendizaje automático y profundo al ser necesario re-definir algunas de las estrategias auto-supervisadas y multimodales para poder atacar este tipo de datos secuenciales que no han sido ampliamente estudiados en el pasado.