HyperAI超神经

日本初！AIが同時通話で自然な会話を実現名古屋大学の東仲研究室は、人間と一緒に作業できるAI対話システムの開発に注力しています。このプロジェクトの一環として、大阪のNIFREL水族館にガイドロボットが導入され、来場者の海洋生物への質問に答えました。複雑な質問には人間のオペレーターが介入し、補助提供しました。 J-Moshiは、日本語特有の会話パターンを模倣することを目指した世界初の公開可能なAIシステムです。日本人が会話中に相手の理解や関心を示すための短い応答「アイツチ」（例：「そうですよね」「なるほど」）を適切に使用することが特徴です。これは従来のAIが同時通話が困難であるため、自然な会話を行うのが難しかった問題を解決します。 J-Moshiの開発は、名古屋大学情報学研究科の東仲研究室を中心に進められました。約4か月の開発期間中、複数の日本語音声データセットを使用してシステムをトレーニングしました。最も大きなデータセットは東京大学が公開したJ-CHATから得られ、約67,000時間のポッドキャストやYouTubeの音声データを含んでいます。また、研究室内で収集された高品質な小規模データセットや20〜30年前のものも使用されました。文字チャット会話を人工音声に変換するために自社開発のテキスト読み上げプログラムが活用されました。 2024年1月、J-Moshiのデモンストレーション動画がSNSでバズを呼び、大きな注目を集めました。技術的な新規性だけでなく、日本語学習にも応用が期待されています。例えば、非ネイティブスピーカーが自然な日本語会話のパターンを練習したり理解したりするのに役立つ可能性があります。実用化への道筋研究チームは、コールセンター、医療現場、顧客サービスでの商業利用を目指しています。東仲教授は産業界では日本語音声データが不足していることやプライバシー保護の課題について指摘しています。また、データ不足を補うため、コンピュータプログラムでポッドキャスト録音内の混合音声を個々の話者トラックに分離するなど、創造的な解法を実施しています。現在の対話システムは、複雑な社会状況、特に人間関係や物理的な環境を考慮する際の課題を抱えています。マスクや帽子などによって重要な視覚的な手掛かりが覆われている場合も性能に影響を与えます。NIFREL水族館でのテストでは、AIがユーザーの質問に応じきれない場合もあることが判明し、人間のオペレーターが介入が必要だったと報告されました。研究者は、このような課題を緩和するため、会話のサマリーや対話ブレークダウン検出システムを開発しています。これらは、AIが困難な状況を人間のオペレーターに迅速に通知し、支援を求める仕組みです。東仲教授は、「J-Moshiが自然な日本語会話パターンを捉えるうえで大きな成果ですが、多くの実用的なアプリケーションではまだ人間のバックアップが必要です」と述べています。東仲教授はNTT株式会社で19年間消費者対話システムや音声エージェントの開発に携わった後、名古屋大学に移籍して独自の研究室を設立しました。彼の20人のメンバーは、理論的な研究と実用的なアプリケーションを結ぶ課題に取り組んでいます。たとえば、NIFREL水族館での実用化では、AIガイドロボットが一般的な対話を独立して担当し、複雑な質問や専門的な援助が必要な場合はすぐに人間のオペレーターに接続されます。「人間と共存するAIシステムの基礎技術を創出し、そのような変革的な社会の実現に貢献したい」と professor Higashinaka は抱負を語っています。今後の展望研究チームは、J-Moshiのさらなる発展に加え、リアリスティなヒューマノイドロボットの開発にも取り組んでいます。Unitree Robotics製のロボットなど、最新のAI技術を具体的な形態に実装することで、対話システムが不仅仅は会話のニュアンスだけでなく、物理的な存在や空間認識もナビゲートできるようにしています。 2025年8月、オランダ・ロッテルダムで開催されるInterspeechでJ-Moshiの研究成果が発表されます。東仲教授と研究チームは、AIが人間と共に自然な言葉やジェスチャーでシームレスに協働するシステムの創出に向けて尽力しています。

日本初、同時話聴可能なAI対話システム「J-Moshi」が自然な会話を実現

Related Links