音声エージェントの多言語ASR検証
企業向け音声エージェントにおけるコードスイッチング(文中の言語切替)対応能力を評価した独自のベンチマーク結果が公開された。二言語話者の増加に伴い、特に顧客サポート環境では自然な言語切替が日常的に行われるため、音声認識基盤の正確性が事業運営の成否を左右する課題となっている。 調査陣は、スペイン語・英語、フランス語・英語、カナダ・フランス語・英語、ドイツ語・英語の4ペアを対象に、人事・ITサポートシナリオを用いた独自データセットを構築した。生成AIによる合成音声と専門言語学の検閲を経て作成されたデータに対し、文字認識誤り率、意味論的誤り率、およびダウンストリーム処理の回答誤り率の3指標で性能評価を実施した。 評価結果、ElevenLabs Scribe V2、Google Gemini 3 Flash、Assembly AI Universal 3-Proが総合性能で最上位を獲得した。特にScribe V2は単一言語ベースラインと比較してもコードスイッチングによる性能劣化が最小限に抑えられ、実務レベルでの堅牢性を証明した。一方、Deepgram Nova-3は意味保存評価で下位に留まり、ダウンストリーム処理での失敗リスクが指摘されている。 詳細なエラー分析では、言語切替そのものより、母言語に埋め込まれた英語部分に誤りが集中する現象が確認された。切替頻度はエラー発生の確率に相関するものの、エラーの規模は言語混合密度によって決定される傾向がある。この結果は、モデルが文脈内で音韻的・語彙的レジスターを急激に変化させる際に生じる適応負荷を示唆している。 コードスイッチングは音声AIにとって長年の難題だったが、先進モデルは実用上の障壁を大幅に解消しつつある。ただし言語ペアごとに性能の偏りが明確であるため、企業は自社の顧客言語構成に合わせた厳密なベンチマークとモデル選定を義務付けるべきである。本調査はAU-Harnessを通じてデータが公開され、業界の検証基盤となる。
