Skip to main content

Scalable Understanding of Multilingual Media

Article Category

Article available in the folowing languages:

Une plateforme de surveillance médiatique qui facilite la tâche des professionnels des médias et rend leur travail plus efficace que jamais

La surveillance des médias est devenue une véritable gageure en ce qu’elle implique d’être en mesure de gérer des canaux de diffusion et de communication internet internationaux qui ne cessent de se multiplier. Une initiative de l’UE s’est attaquée à ce défi en mettant au point une plateforme qui traite de grandes quantités de données en plusieurs langues et à partir de différents types de médias.

Économie numérique
Société

«Confrontées à la croissance exponentielle des sources d’information télévisuelles, radiodiffusées, écrites ou en ligne, les approches actuelles de la surveillance des médias se trouvent dans l’incapacité de faire face à un problème d’une telle ampleur», explique le professeur Steve Renals, coordinateur du projet SUMMA, financé par l’UE. La surveillance des médias est complexe. Elle implique la collecte de données dans de nombreuses langues ainsi que l’automatisation du traitement et de la gestion d’une quantité importante de contenu audio et vidéo. Intégrer des technologies vocales et linguistiques de pointe Afin d’aider les journalistes et les entités en charge de la surveillance des médias, SUMMA a mis au point une plateforme de surveillance multilingue et évolutive qui intègre des outils de traitement des médias et des technologies de traitement du langage naturel. L’équipe SUMMA a conçu, développé et déployé la plateforme, puis a testé plusieurs prototypes auprès de journalistes de la BBC et de la Deutsche Welle, toutes deux partenaires du projet. Plus spécifiquement, les partenaires du projet ont développé des systèmes avancés de reconnaissance vocale et de traduction automatique pour l’allemand, l’anglais, l’espagnol, le lituanien, le portugais, l’arabe, le perse (farsi), le russe et l’ukrainien. La plateforme ne traite actuellement que ces langues, mais elle est virtuellement capable de couvrir toutes les langues principales en intégrant des outils disponibles sur le marché. Les outils de traitement des médias de la plateforme en source ouverte, notamment la reconnaissance vocale, la transcription automatique et la traduction automatique, peuvent être adaptés à des centaines de flux audio et vidéo et être enrichis pour faire face à la croissance du nombre de flux média. Cette plateforme est en outre flexible et capable d’évoluer en fonction des besoins des utilisateurs et peut intégrer sans difficulté de nouvelles technologies. Faciliter la surveillance des développements et la recherche des sujets à la mode Le système de surveillance totalement automatisé de la plateforme intègre du contenu via une interface de programmation d’applications. Une fois intégré, elle transcrit automatiquement la partie audio des vidéos, transformant les discours en textes. Elle traduit également automatiquement en anglais tous les textes, soit à partir des articles originaux, soit à partir des paroles transcrites. Elle utilise ensuite ces éléments pour produire une présentation globale du contenu toutes langues d’origine confondues, en groupant les sujets liés pour constituer des histoires, en résumant ces histoires et les éléments individuels, en ajoutant des mots clés thématiques et des entités nommées, et en réalisant une analyse d’opinion. La BBC tire parti des résultats de SUMMA en utilisant un prototype de moteur de transcription qui transforme le matériel intégré par le système de surveillance de la BBC en contenu consultable de manière conviviale par les journalistes en charge de la veille médiatique. Le radiotélédiffuseur du service public britannique international a également recours à un système qui utilise la plateforme pour alerter les équipes de BBC World Service au sujet des histoires publiées qui seraient des candidates idéales pour la traduction. De son côté, la Deutsche Welle se sert des composantes de SUMMA dans le cadre du projet de l’Union européenne de radio-télévision Eurovox, qui met actuellement au point des normes pour le traitement automatisé des langues comme la traduction, la transcription, le sous-titrage et le doublage pour la diffusion. À la suite de SUMMA, deux sociétés dérivées ont été constituées. À partir de la plateforme, Mindflux a développé une solution à guichet unique pour la localisation de contenu assisté par ordinateur afin de traduire des médias en qualité de production. Elle permettra aux utilisateurs de transcrire, traduire et sous-titrer n’importe quel contenu audio, vidéo ou texte en un seul lieu. Tirant partie de certaines composantes de la plateforme, Hatch AI a quant à elle mis au point des solutions d’intelligence artificielle et d’apprentissage machine destinées au secteur des services financiers. «Avec la plateforme SUMMA, il n’a jamais été aussi facile d’agréger, de structurer et d’analyser des données linguistiques», conclut le professeur Renals. «Les professionnels des médias et les salles de rédaction du monde entier pourront tout simplement filtrer des contenus en fonction de leurs besoins.»

Mots‑clés

SUMMA, médias, contenu, surveillance des médias, journalistes, plateforme de surveillance, professionnels des médias, traduction automatique

Découvrir d’autres articles du même domaine d’application