HyperAIHyperAI

Command Palette

Search for a command to run...

「Googleの新モデルGemini Diffusion:テキスト生成の速度と一貫性を飛躍的に向上させる拡散アプローチ」

Googleの新アプローチがLLMの展開を再定義する可能性 2025年5月、Google DeepMindは新しいAIツール群と共に「Gemini Diffusion」を発表した。この研究成果モデルは、従来の大型言語モデル(LLM)のような階層型オートレグレッシブアプローチではなく、拡散法を用いてテキストを生成する。オートレグレッシブアプローチでは、一つ前の単語に基づいて次々と単語が生成されていくが、これには多くの計算リソースと時間がかかる。拡散言語モデル(DLMまたはdLLM)は、画像生成で一般的に使われる方法を応用し、ランダムノイズから逐步的に意味のある出力を作り出す。そのため、速度が大幅に向上し、一貫性と整合性も改善される。 拡散法とオートレグレッシブ法の違い オートレグレッシブ法では、テキストは順次生成され、各トークンは一つずつ予測される。これにより文脈の追跡とcoheseが保たれるが、特に長期的なコンテンツ作成においては計算負荷が高くなる欠点がある。一方、拡散法はランダムノイズから始め、段階的にノイズを取り除いて意味のある文章を作り出す。この方法では、複数のトークン塊を並列処理できるため、高速な生成が可能となる。また、生成過程での誤りを修正できるため、精度が向上し、幻覚的な出力が減少する。 拡散テキスト生成の仕組み 拡散モデルの訓練は、元の文章に徐々にノイズを加えていく前向き拡散と、それに対応して段階的にノイズを除去する後向き拡散の両方を行う。前向き拡散では、多数のステップ(通常500〜1,000回)にわたってノイズが加えられ、元の文章は認識不能になる。その後、後向き拡散では、モデルが段階的にノイズを除去し、最終的には元の文章構造を復元する。訓練が完了すると、特定の条件や入力を与えることで新しい文章を生成できるようになる。 パフォーマンスのベンチマーク Gemini DiffusionとGemini 2.0 Flash-Liteを数々のベンチマークで比較した結果、Gemini Diffusionはプログラミングや数学のテストで良い成績を上げた一方、推論や科学的知識、多言語能力では後者に少し劣っていた。ただし、非局所的一貫性が必要な分野、例えばプログラミングや推論では、拡散法の優位性が見られる可能性がある。 | ベンチマーク | Gemini Diffusion | Gemini 2.0 Flash-Lite | |---------------|-------------------|------------------------| | LiveCodeBench (v6) | 30.9% | 28.5% | | BigCodeBench | 45.4% | 45.8% | | LBPP (v2) | 56.8% | 56.0% | | SWE-Bench Verified* | 22.9% | 28.5% | | HumanEval | 89.6% | 90.2% | | MBPP | 76.0% | 75.8% | | GPQA Diamond | 40.4% | 56.5% | | AIME 2025 | 23.3% | 20.0% | | BIG-Bench Extra Hard | 15.0% | 21.0% | | Global MMLU (Lite) | 69.1% | 79.0% | 単一ターン編集のみ、最大プロンプト長32K。 拡散モデルの企業利用例 拡散モデルはリアルタイムレスポンスが必要なアプリケーションに適している。これにはAIチャットボット、ライブトランスクリプションと翻訳、IDEの自動完成功能などがある。特に、インライン編集(例えば、一部の文章をそのまま変更する)のような用途では、拡散モデルがオートレグレッシブモデルとは異なる利点がある。これにより、非因果的な推論が可能となり、数学や编程問題の解決にも有効である。 VentureBeatは実験デモへのアクセス権を得て、Gemini Diffusionの性能をテストした。提供されたプロンプトを使用してHTMLアプリケーション(例如、XylophoneやPlanet Tac Toe)の構築や、ビデオチャットインターフェースの生成などの試験を行った結果、 Gemmini Diffusionは最短2秒で動作するインターフェースを作成し、600〜1,300トークン/秒の速度を示した。また、「Instant Edit」機能では、最小限のプロンプトで文やコードの实时编辑が可能となった。 総じて、拡散法ベースの言語モデルは、従来の方式を超えるパフォーマンスと精度の向上を約束している。将来的には、リアルタイム応答能力が求められる各种应用场景で大きな変革を引き起こす可能性がある。 業界関係者のコメントと他のモデル Google DeepMindの研究科学者であるBrendan O’Donoghueは、拡散法の主要な利点について話し、「非因果的推論能力や並列処理の能力が、特定の分野で優れた結果を生む」と述べている。一方で、拡散モデルの導入コストや初回トークン生成までの時間(TTFT)についても触れ、「これらの点は今後の課題」と指摘している。 現在、拡散モデルはMercury(Inception Labs開発)、LLaDa(GSAI開発)などのオープンソースモデルを含め、着実に生態系を築いている。これらのモデルは、高速で並列化可能な新しい言語モデルアーキテクチャを提供し、伝統的なオートレグレッシブアプローチとの競合を生んでいる。 Google DeepMindは、AI研究と開発の最前線に立ち、革新を続けており、今後の拡散法モデルの発展が注目される。

関連リンク

「Googleの新モデルGemini Diffusion:テキスト生成の速度と一貫性を飛躍的に向上させる拡散アプローチ」 | 人気の記事 | HyperAI超神経