HyperAI

17日前

Googleは新しいリアルタイム音声翻訳ツールGemini 3.5 Live Translateの公開を発表した。本機能は、対話中の両者を瞬時に翻訳するボイス・トゥ・ボイス対応を主な目的としている。従来の機械翻訳が切り捨ててしまいがちな話者の発話リズム、トーン、ピッチを高精度に維持・再現することが技術的特徴であり、人間同士の自然な会話体験をデジタル環境でも実現する。セキュリティ面では、生成された音声データにAI合成識別技術SynthIDの透かしを埋め込む仕様を採用。これにより、音声の改ざんや不正な流用を防ぎ、利用者の信頼性と透明性を担保する。同機能は既存のGeminiプラットフォームに統合され、開発者向けAPIおよび一般ユーザー向けインターフェースを通じて提供される予定。グローバルな言語障壁の解消と、マルチリンガル環境におけるリアルタイム協力作業の効率化に寄与すると業界では期待されている。技術仕様および提供スケジュールの詳細は今後公式サイトにて公開される見込み。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Command Palette

Google「ジェミニ3.5」音声翻訳機能発表

関連リンク

Command Palette

Google「ジェミニ3.5」音声翻訳機能発表

関連リンク

Command Palette

Google「ジェミニ3.5」音声翻訳機能発表

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。