HyperAI

Googleは20年前の機械学習翻訳実験から積み重ねてきた技術の集大成として、リアルタイム音声対音声翻訳モデルGemini 3.5 Live Translateの提供を本日開始した。同社の翻訳サービスは月間1兆語以上の処理実績を誇り、本モデルは言語の壁を解消するグローバルなライブ通訳基盤へと進化させることを目的としている。 Gemini 3.5 Live Translateは70以上の言語を自動検出し、話者の抑揚、発話ペース、ピッチを保持した自然な音声を生成する。従来の逐次翻訳方式とは異なり、音声ストリームをリアルタイムで処理して継続的に出力する構造を採用している。文脈の取り込みによる精度向上と発話同期のバランスを最適化し、話者より数秒の遅延を保ちつつ不自然な間隔を排除した滑らかな会話体験を実現する。開発者向け実装面でも強化が進んでいる。多言語入力を手動設定なしで自動処理するほか、騒音や環境音が多い場面でも安定した処理性能を維持するノイズロバストネス技術を内蔵している。ストリーミング対応により、マルチリンガル通話、ビジネス会議、教育セッション、ライブ配信などの即時通訳アプリケーションへの組み込みが容易となる。本リリースは本日よりGoogleのサービス群および開発者向けAPIで順次展開される。翻訳の待ち時間と精度の長年の課題を解決し、リアルタイム多言語コミュニケーションの標準を刷新する。Googleの翻訳AIは研究開発段階から産業インフラへと歩みを進め、次世代の対話型サービスに不可欠な基盤技術としての地位を確立した。

関連リンク

関連リンク

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Command Palette

Gemini 3.5ライブ音声翻訳公開

関連リンク

Command Palette

Gemini 3.5ライブ音声翻訳公開

関連リンク

Command Palette

Gemini 3.5ライブ音声翻訳公開

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。