HyperAI

2ヶ月前

Google は 2026 年 4 月 15 日、テキストから音声へ変換する次世代 AI モデル「Gemini 3.1 Flash TTS」を発表しました。同モデルは以前のバージョンよりも自然で感情豊かな発話を実現し、特に制御性と表現力を大幅に向上させています。Artificial Analysis の評価基準である盲検テストにおいて、1,211 の Elo スコアを獲得し、高品質な生成と低コストのバランスに優れる領域に位置づけられています。このモデルの最大の特徴は、テキスト内に自然言語コマンドとして埋め込むことで発話のトーン、ペース、表現を細かく指示できる「オーディオタグ」機能です。開発者は環境設定や登場人物の性格を定義する「シーンディレクション」、個別のキャラクターにプロファイルと指示を設定する「スピーカーレベルの特定」などの機能を通じて、まるで演出家のように音声のクオリティをコントロールできます。これにより、一貫性のある多彩なキャラクターや没入型の音声体験を構築することが可能になります。また、設定済みのパラメータは Gemini API コードとしてエクスポートでき、異なるプロジェクト間で音声を統一して使用できます。 Gemini 3.1 Flash TTS は 70 言語以上に対応しており、グローバル規模での多様な音声生成をサポートします。本モデルは現在、開発者向けに Gemini API および Google AI Studio でプレビューとして利用可能で、企業向けには Vertex AI を介して、Google Workspace のユーザーには Google Vids を通じて提供を開始しています。また、生成されるすべての音声には、誤情報対策として合成 AI 生成であることを検知可能な非可視透かし技術「SynthID」が組み込まれています。このアップデートにより、開発者や企業はより精密で創造的な音声アプリケーションを構築できると期待されています。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。

Command Palette

Google、Gemini 3.1 Flash TTS を発表し、70 種類以上の言語をサポート

関連リンク

Command Palette

Google、Gemini 3.1 Flash TTS を発表し、70 種類以上の言語をサポート

関連リンク

Command Palette

Google、Gemini 3.1 Flash TTS を発表し、70 種類以上の言語をサポート

関連リンク

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。