HyperAIHyperAI

Command Palette

Search for a command to run...

Google、Gemini 3.1 Flash TTS を発表し、70 種類以上の言語をサポート

Google は 2026 年 4 月 15 日、テキストから音声へ変換する次世代 AI モデル「Gemini 3.1 Flash TTS」を発表しました。同モデルは以前のバージョンよりも自然で感情豊かな発話を実現し、特に制御性と表現力を大幅に向上させています。Artificial Analysis の評価基準である盲検テストにおいて、1,211 の Elo スコアを獲得し、高品質な生成と低コストのバランスに優れる領域に位置づけられています。 このモデルの最大の特徴は、テキスト内に自然言語コマンドとして埋め込むことで発話のトーン、ペース、表現を細かく指示できる「オーディオタグ」機能です。開発者は環境設定や登場人物の性格を定義する「シーンディレクション」、個別のキャラクターにプロファイルと指示を設定する「スピーカーレベルの特定」などの機能を通じて、まるで演出家のように音声のクオリティをコントロールできます。これにより、一貫性のある多彩なキャラクターや没入型の音声体験を構築することが可能になります。また、設定済みのパラメータは Gemini API コードとしてエクスポートでき、異なるプロジェクト間で音声を統一して使用できます。 Gemini 3.1 Flash TTS は 70 言語以上に対応しており、グローバル規模での多様な音声生成をサポートします。本モデルは現在、開発者向けに Gemini API および Google AI Studio でプレビューとして利用可能で、企業向けには Vertex AI を介して、Google Workspace のユーザーには Google Vids を通じて提供を開始しています。また、生成されるすべての音声には、誤情報対策として合成 AI 生成であることを検知可能な非可視透かし技術「SynthID」が組み込まれています。このアップデートにより、開発者や企業はより精密で創造的な音声アプリケーションを構築できると期待されています。

関連リンク

Google、Gemini 3.1 Flash TTS を発表し、70 種類以上の言語をサポート | 人気の記事 | HyperAI超神経