Gemini 3.1 Flash Live が音声 AI をより自然かつ信頼性の高いものへ
Google は 2026 年 3 月 26 日、音声対話 AI 分野を革新する最新モデル「Gemini 3.1 Flash Live」を発表しました。これは Google がこれまでで最も高精度な音声モデルであり、低遅延と精密な音声処理を特徴とし、自然で信頼性の高いリアルタイム対話を実現することを目的としています。開発者は Google AI Studio の Gemini Live API を通じてこのモデルにアクセスでき、エンタープライズ顧客は顧客体験強化のための Gemini Enterprise で利用可能です。また、一般ユーザーは Search Live や Gemini Live を通じて、全世界 200 ヵ国以上で利用可能です。同モデルは、複雑なタスク処理や長文脈の維持に優れており、特に実世界における音の乱れや会話の中断・ためらいがある状況でも正確な指示実行が可能であることを実証しています。ベンチマークでは、多段階関数呼び出しの精度を示す ComplexFuncBench Audio で 90.8%、複雑な指示追従と長距離推論を評価する Scale AI の Audio MultiChallenge では「思考機能」有効時で 36.1% と、いずれも前モデルを上回る最高成績を記録しました。また、ピッチや話速など音響的なニュアンスをより細かく認識でき、ユーザーのイライラや混乱を敏感に察知して応答を動的に調整する能力も強化されています。一般ユーザーにとっては、応答速度が向上し、思考の流れを途切れさせずに長時間の対話が可能になるため、日常の質問から複雑な会話まで、より自然で役立つ体験が提供されます。さらに、このモデルは内生的に多言語に対応しており、Search Live の世界的な展開を可能にしました。セキュリティと責任ある利用のため、Gemini 3.1 Flash Live が生成するすべての音声には、合成 AI 生成コンテンツを不可視の形で埋め込む SynthID という透かし技術が適用されており、誤情報の拡散防止に貢献します。Verizon や LiveKit、The Home Depot などの主要企業は、このモデルの会話の自然さと信頼性を高く評価しており、実際の業務フローでの導入を期待しています。この新機能は本日より利用を開始し、開発者やユーザーによる創造的な活用が期待されています。
