HyperAI
Back to Headlines

J-Moshi : Le Premier Système d’IA Japonais Capable de Converser Naturellement en Simultané

il y a 3 jours

Le premier système d'IA japonais à parler et écouter simultanément Le laboratoire Higashinaka, affilié à l'Université de Nagoya au Japon, est en train de développer des systèmes de dialogue entre l'IA et les humains conçus pour fonctionner en complément des opérateurs humains. Un exemple concret de ces efforts est le déploiement d'un robot-guide à l'aquarium NIFREL d'Osaka. Ce robot répond aux questions des visiteurs sur la vie marine, en recourant à l'aide d'opérateurs humains pour les requêtes complexes. Naissance de J-Moshi En janvier 2024, les chercheurs de l'Université de Nagoya ont réalisé une avancée majeure avec la création de J-Moshi, le premier système d'IA disponible au public spécialement conçu pour reproduire les modèles de conversation japonais. Contrairement aux IA conventionnelles, J-Moshi est capable de capturer les nuances subtiles de la conversation japonaise, notamment les courts échos vocaux appelés "aizuchi". Ces expressions, qui incluent des phrases comme "Sou desu ne" (C'est vrai) et "Naruhodo" (Je vois), sont utilisées fréquemment lors des dialogues pour montrer l'engagement et l'écoute active. Défis Techniques et Avancées Les systèmes d'IA traditionnels peinent à utiliser les aizuchi car ils ne peuvent pas parler et écouter simultanément, une capacité cruciale pour un dialogue naturel en japonais. L'équipe dirigée par le professeur Ryuichiro Higashinaka a donc construit J-Moshi en s'appuyant sur le modèle Moshi en anglais, créé par le laboratoire à but non lucratif Kyutai. Le processus, qui a duré environ quatre mois, a impliqué l'entraînement du système avec diverses bases de données de discours en japonais. La principale source de données a été J-CHAT, la plus grande base de données de dialogues en japonais accessible au public, créée et publiée par l'Université de Tokyo. Elle contient environ 67 000 heures d'enregistrements audio provenant de balados et de chaînes YouTube. En complément, l'équipe a utilisé des ensembles de données de dialogues plus petits mais de meilleure qualité, recueillis dans le laboratoire ou datant de 20 à 30 ans. Pour augmenter encore davantage la taille de leur corpus de formation, les chercheurs ont converti des conversations écrites en discours artificiel grâce à des programmes de transformation texte-parole qu'ils ont eux-mêmes développés. Applications Pratiques J-Moshi a attiré une grande attention du public en janvier 2024, lorsque des vidéos de démonstration ont fait le tour des réseaux sociaux. Outre son innovation technique, le système offre des opportunités pratiques en matière d'apprentissage linguistique. Il peut notamment aider les non-natifs à pratiquer et à comprendre les schémas de conversation naturelle en japonais. Les applications commerciales potentielles sont également nombreuses et incluent les centres d'appels, les services de santé et l'assistance clients. Contexte et Défis Spécifiques au Japon Professor Higashinaka, le chef de l'équipe de recherche, apporte une perspective unique à l'IA académique, ayant passé 19 ans comme chercheur en entreprise chez NTT Corporation avant de rejoindre l'Université de Nagoya il y a cinq ans. Auparavant, il a travaillé sur des systèmes de dialogue destinés au grand public, notamment sur un projet visant à mettre en place une fonction de réponse aux questions pour Shabette Concier, un service d'agents vocaux de NTT DOCOMO. Pour approfondir ses recherches sur les modèles de communication humaine, il a fondé son propre laboratoire au sein de l'École graduée d'informatique de l'Université de Nagoya en 2020. Le Japon souffre d'une pénurie de ressources vocales, ce qui limite la capacité des chercheurs à entraîner des systèmes de dialogue d'IA. Les préoccupations liées à la confidentialité ajoutent une couche supplémentaire de complexité. Face à cette pénurie, l'équipe a trouvé des solutions créatives, par exemple en utilisant des logiciels pour séparer les voix mixtes dans les enregistrements de balados en pistes individuelles nécessaires à l'entraînement. Mise en Œuvre et Limites Les tests réalisés à l'aquarium NIFREL d'Osaka ont montré que, malgré ses capacités avancées, J-Moshi rencontre encore des difficultés face à des situations sociales complexes, en particulier lorsqu'il faut prendre en compte les relations interpersonnelles et l'environnement physique. Par exemple, les obstacles visuels tels que des masques ou des chapeaux peuvent brouiller les expressions faciales, essentielles pour une communication fluide. Par conséquent, le système actuel nécessite encore l'assistance de soutien humain pour la plupart des applications pratiques. Recherches en Cours L'ensemble des projets du laboratoire Higashinaka dépasse le cadre de J-Moshi et inclut plusieurs méthodes d'interaction humain-robot. En collaboration avec des collègues travaillant sur des robots humanoïdes réalistes, l'équipe développe des systèmes capables de coordonner parole, gestes et mouvements pour communiquer naturellement. Ces robots, fabriqués par des entreprises comme Unitree Robotics, représentent les dernières avancées en matière d'IA à forme physique, où les systèmes de dialogue doivent non seulement maîtriser les nuances conversationnelles mais aussi la présence physique et la conscience spatiale. Le laboratoire présente régulièrement ses travaux lors des journées portes ouvertes de l'université, offrant au public l'opportunité de découvrir en direct comment les systèmes de dialogue d'IA évoluent. Perspectives et Ambitions Le papier présentant J-Moshi a été accepté pour publication lors d'Interspeech, la plus grande conférence internationale sur la technologie et la recherche en parole, qui se tiendra à Rotterdam, aux Pays-Bas, en août 2025. Le professeur Higashinaka et son équipe sont impatients de partager leurs résultats et de recevoir les retours de la communauté scientifique. "Dans un futur proche, nous allons voir apparaître des systèmes capables de collaborer sans couture avec les humains par le biais de la parole naturelle et des gestes. Mon objectif est de créer les technologies fondamentales indispensables à une société transformée par ces innovations," souligne le professeur Higashinaka. Le laboratoire Higashinaka, composé de 20 membres, continue de relever les défis qui lient la recherche théorique et les applications pratiques, travaillant constamment à améliorer l'interaction humain-IA et à rendre ces technologies plus accessibles et utiles. Évaluation Professionnelle Des professionnels de l'industrie ont exprimé un vif intérêt pour J-Moshi, louant sa capacité à reproduire des modèles de conversation japonais naturels et engageants. Ils reconnaissent toutefois que des obstacles subsistent, notamment l'adaptation des systèmes à des domaines spécialisés où les données de discours en japonais sont limitées. Malgré ces défis, l'ambition est claire : transformer la façon dont l'IA communique avec les humains, en Japonais et en d'autres langues, pour créer des interactions plus fluides et significatives. Profil de l'Entreprise Le laboratoire Higashinaka est reconnu pour son expertise dans la recherche d'IA dialogique, combinant une solide base académique et une expérience professionnelle en milieu industriel. Son travail, financé notamment par le Projet Moonshot du Gouvernement japonais, vise à améliorer la qualité des services grâce à des systèmes d'IA capable de collaborer avec les humains. Avec des projets tels que J-Moshi et des robots guides utilisant des gestes et des mouvements, l'équipe de Higashinaka se positionne comme un acteur de premier plan dans le domaine des interactions humain-robot. Ce résumé met en lumière les progrès significatifs réalisés par les chercheurs japonais en matière de systèmes de dialogue d'IA, et souligne les perspectives prometteuses que ces technologies offrent pour l'avenir.

Related Links