Skip to main content

Multimodal context and voice recognition for seamless voice control technology interfaces with low upfront cost

Article Category

Article available in the folowing languages:

La commande vocale pour l’intelligence artificielle des objets laisse présager un avenir plus sûr et plus simple

La pandémie de COVID-19 a mis en évidence les avantages de la commande sans contact des appareils. XMOS a développé une interface vocale pour le domaine émergent de l’intelligence artificielle des objets; elle permet l’exécution de fonctions complexes à faible coût financier et environnemental.

Économie numérique

Les interfaces vocales offrent un moyen plus simple, plus sûr et plus naturel d’interagir avec les appareils. Le projet XMOS a mis au point une interface capable de détecter la présence humaine, de distinguer un utilisateur d’un autre et d’agir en conséquence. «XMOS utilise un microcontrôleur très peu coûteux qui exécute le traitement de la voix localement, n’utilisant qu’une faible quantité d’énergie et d’espace physique dans un appareil. De plus, nous avons ajouté des capteurs pour fournir des informations locales à caractère sensible pour la détection des personnes», explique Mark Lippett, PDG de XMOS. Les algorithmes développés dans le cadre du projet ont été intégrés dans le produit XVF3510 qui est déjà utilisé par des fabricants, dont un opérateur européen, pour un hub domestique intelligent de «nouvelle génération».

Du capteur, au réseau neuronal, à l’application

Après le lancement de ce produit, les utilisateurs ont demandé à pouvoir personnaliser l’interface vocale, notamment pour y intégrer eux-mêmes plus d’«intelligence», plutôt que de s’en remettre à des tiers. Ce retour d’expérience a incité l’équipe du projet à créer une plateforme de développement économique pour l’intelligence artificielle des objets (AIoT) baptisée xcore.ai. Alors que la plateforme fournit l’infrastructure, un kit de développement logiciel (SDK) permet aux développeurs d’intégrer une intelligence performante et flexible dans leurs produits. Le SDK peut combiner les signaux de plusieurs capteurs tels que des microphones, des caméras ou même de petits radars et utilise un réseau neuronal pour détecter des caractéristiques clés, comme un mot ou un visage spécifique. En utilisant une unité de traitement vectoriel spéciale, que l’on ne trouve normalement que dans les processeurs graphiques coûteux, XMOS a augmenté l’efficacité de ce processus, tout en maintenant des coûts faibles. «Pour faciliter l’utilisation de notre plateforme par les concepteurs, nous proposons des interfaces de capteurs et des fonctions de prétraitement dans le cadre de la boîte à outils. Le réseau neuronal utilise un format standard de l’industrie, ce qui permet aux utilisateurs de créer rapidement des applications avec des outils qu’ils connaissent déjà», explique Tom Blackie, chef du projet XMOS. Tout au long du projet, XMOS s’est engagé auprès d’utilisateurs potentiels pour tester les conceptions et recueillir leurs réactions. «La COVID a eu un impact sur nos essais de prototypes en laboratoire. Nous avons donc créé un programme d’accès anticipé en ligne et envoyé des «kits d’exploration» à plus de 30 organisations», note Tom Blackie. «Faire tester les utilisateurs dans des environnements réels a permis d’obtenir un retour rapide et concret sur notre travail.» La confidentialité et la sécurité étant des priorités absolues, XMOS a mis en œuvre plusieurs techniques, telles que le chiffrement du logiciel de l’appareil. En outre, les données sont traitées localement, ce qui évite de recourir à des services externes basés sur le cloud. Il est même possible de fonctionner en dehors de toute connexion réseau.

Pour des vies meilleures et plus sûres

Outre les avantages de la commande sans contact pour la santé publique, le projet XMOS pourrait améliorer l’inclusion et la diversité, car les interfaces vocales éliminent les attentes implicites en matière de mobilité, d’agilité et d’alphabétisation pour les tâches quotidiennes. Les opérations mains libres présentent également des avantages dans les environnements à risque. Dans une cuisine, par exemple, la capacité du système à distinguer les individus pourrait empêcher les enfants d’utiliser des appareils dangereux, comme les fours. Le recours à une interface vocale à faible consommation, au lieu d’un processeur d’applications et de services en nuage plus gourmands en énergie, permet également de réaliser des économies d’énergie, réduisant ainsi l’impact carbone associé. «Le marché de l’AIoT devrait devenir une industrie de 3 000 milliards de dollars d’ici 2024. Nous explorons actuellement un large éventail d’applications dans toute une série d’industries, notamment les possibilités de biosurveillance dans le domaine des soins de santé. Nous sommes impatients de faire évoluer l’un des développements technologiques les plus passionnants de notre époque», souligne Mark Lippett.

Mots‑clés

XMOS, intelligence artificielle, intelligence des objets, sans contact, COVID, mains libres, voix, interface, santé publique, capteurs, sécurité

Découvrir d’autres articles du même domaine d’application