Une indexation automatique de la musique
La prolifération des sources de musique en ligne rend de plus en plus difficile la recherche de contenu spécifique. Les méthodes d'indexation automatiques reposent sur l'existence d'un étiquetage étendu qui n'existe pas. Une méthode qui pourrait se révéler plus efficace implique l'étiquetage automatique de contenu musical en détectant la réaction émotionnelle des auditeurs. Des machines lisent le langage corporel humain et les expressions du visage, générant de la sorte les données d'étiquetage. Le projet EMOTAG («Emotionally-based tagging of multimedia content»), financé par l'UE, visait à développer et à évaluer un tel système d'étiquetage implicite sensible aux émotions. En particulier, le projet a étudié si le comportement de l'utilisateur pouvait suggérer des étiquettes et si cette approche était susceptible d'améliorer l'étiquetage automatique. L'équipe a également étudié les avantages au niveau des performances de ces méthodes ainsi que différentes techniques d'apprentissage par les machines. Le projet a achevé ses deux années d'activité en avril 2014. La recherche initiale comprenait l'analyse de la réponse de l'utilisateur aux étiquettes ne correspondant pas. En combinant les scans cérébraux de plusieurs personnes, l'équipe a pu identifier la réponse cérébrale indiquant une absence de concordance. Toutefois, les schémas à commande oculaire se révèlent être une méthode de détection plus fiable. Les chercheurs ont d'abord analysé les réponses spontanées aux vidéos émotionnelles. Les travaux suivants portaient sur les émotions continues des ondes cérébrales et des expressions faciales. En combinant les méthodes, l'équipe a conclu que la partie informative la plus émotionnelle des signaux électro-encéphalographiques est l'interférence des muscles du visage pendant les expressions. Le projet a identifié la méthode la plus efficace pour détecter l'effet et a réalisé des performances de pointe dans cette détection. Le groupe a également développé un nouvel ensemble de données pour la caractérisation émotionnelle de la musique. L'enquête a conclu que les réseaux neuronaux profonds récurrents captaient également la dynamique de la musique de manière efficace. EMOTAG a étendu la détection automatique des réponses humaines et a conduit à des applications pour l'étiquetage automatique et la récupération multimédia.
Mots‑clés
Indexation de la musique, réponse émotionnelle, indexation automatique, étiquetage, contenu multimédia