AI搭載のリアルタイム音声翻訳が実現したGoogle Meetの進化
Google Meetのリアルタイム音声翻訳機能の実現には、AI技術の進化が不可欠だった。音声エンジニアリングチームを率いるフレドリック氏は、約2年前に「音声翻訳」の開発を開始。当初はオフラインでの翻訳は可能だったが、ライブ通話で使える「瞬時翻訳」は実現できていなかった。この課題を解決するため、Google DeepMindチームと協業。当初は「5年かかるかもしれない」と予想していたが、AIの進展スピードの速さに驚き、「2年で実現した」と語る。 従来の翻訳技術は、音声をテキストに変換(音声認識)→ 翻訳 → 再度音声に変換する3段階のプロセスを経ていた。このため、10~20秒の遅延が生じ、自然な会話は不可能だった。また、出力音声は機械的で、話者の声の特徴を再現できなかった。 真の飛躍は、「ワンショット翻訳」モデルの導入に起因する。ヒュイブ氏(音声品質のプロダクトマネージャー)によると、この大規模モデルは入力された音声をそのまま出力音声として返すことができ、遅延をほぼゼロに近づけた。2~3秒が自然な会話に適した「最適なタイミング」と判明。これにより、複数言語間での同時会話が可能になった。 開発の難しさは多岐にわたり、話者のアクセント、背景音、ネットワーク状態などによる翻訳品質のばらつきが課題だった。MeetチームとDeepMindは、言語専門家や翻訳家と協力し、言語のニュアンスやイディオムの違いを分析。スペイン語、イタリア語、ポルトガル語、フランス語など構造が近い言語は比較的容易だったが、ドイツ語のような文法や表現の違いが大きい言語は難航。現在は翻訳が文語的・直訳的になり、冗談や皮肉が誤解を招くことも。しかし、今後は高度な大規模言語モデル(LLM)の導入により、トーンや文脈を捉えたより自然な翻訳が期待されている。 この取り組みは、Pixel、Cloud、Chromeなど複数チームが連携するGoogle全体のAI活用の象徴ともなっている。
