MetaのAIグラスに搭載されたリアルタイム翻訳機能の開発裏話:端末内処理で実現した低遅延・オフライン対応の技術革新
メタが開発したAIグラスにおけるリアルタイム翻訳機能の実現には、技術的課題と人間中心の設計思想が融合した取り組みが不可欠だった。2024年のConnectカンファレンスでマーク・ザッカーバーグ氏が披露したデモは、SF映画『ハッチハイカーのためのガイド』に登場する「バベルフィッシュ」や『スター・トレック』のユニバーサルトランスレーターを彷彿とさせるものだったが、実際には多くの技術的困難を乗り越えて実現されたものだ。 当初は未発表の「Ray-Ban Meta Display」向けのデモ機能として企画されたが、既に市場に出ている「Ray-Ban Meta」が5マイクアレイを備えており、話し手と相手を正確に識別できるため、実用的なテストベッドとして採用された。翻訳プロセスは、フランス語話者が話した音声をリアルタイムで文字に変換し、スペイン語に翻訳、さらにテキストから音声へ変換してグラスのスピーカーから再生する。すべての処理はグラス内で完結し、インターネット接続なしでも動作可能である。 開発チームは、旅行時のネット環境の不安定さを考慮し、事前に翻訳モデルをダウンロードできるように設計。ユーザー体験を最優先に、端末内での処理により低遅延を実現。初期の5秒以上だった遅延を2.7秒まで改善し、会話が自然に感じられるレベルまで引き上げた。これは、モデルが一語ずつ流れるように処理できる「ストリーミング型」の革新によるものだ。 ただし、新しい言語を追加するには各端末形式ごとにモデルを再トレーニング・評価する必要があり、スケーラビリティは依然として課題。現在は英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語(Ray-Ban Meta、Oakley Meta)と英語、フランス語、イタリア語、スペイン語(Ray-Ban Meta Display)に対応している。 早期利用者からの反応は好意的。家族との会話、海外旅行、国際会議など、多様な場面で活用され、特に多言語家族の世代間コミュニケーションに大きな意義があると評価されている。オープンイヤー型スピーカーは周囲とのつながりを断たず、自然な会話体験を実現。さらに、Meta AIアプリで双方向のリアルタイム字幕表示も可能で、相手も理解しやすくなる。 開発チームは「技術だけでなく、人々が本当に必要としていることを信じて取り組んだ」と語る。未来のビジョンは、「いつでもどこでも、誰でも言語を理解できる世界」。現状は始まりにすぎないが、メタのAIグラスは、言語の壁を越える一歩を確実に踏み出している。
