CMUと英伟達、並行生成モデル「Multiverse」で大規模言語モデルの推理を革新
大規模モデルの推論が大きく変革!CMUとNVIDIAが協力して「Multiverse」を開発 人工知能の進化に伴い、大規模言語モデル(LLM)の用途がますます広がっていますが、現行の推論方法には制限が Plenty あります。従来の自律回帰生成では、トークンを順次生成するため、効率が低く、現代のハードウェアの並列計算能力を十分に活用できませんでした。 この課題を解決するために、カーネギーメロン大学(CMU)とNVIDIAの研究チームは、「Multiverse」という新世代の生成モデルを開発しました。Multiverseは、生成過程を根本的に並列化することで、LLMの推論の概念を刷新することを目指しています。モデルの速度向上だけでなく、アーキテクチャ自体を見直すことで、並列処理の可能性を最大限に引き出すのです。 研究チームは、現在の主流の言語モデルが生成中に潜在的な並列性を持ってることを発見しました。これを基に、MultiverseフレームワークはMapReduceのような構造を採用し、生成プロセスを3つの段階に分割:タスクの適応的分解、サブタスクの並列実行、および損失なしの結果の結合。これにより、計算リソースの可能性が最大限に引き出され、推論プロセス全体の効率が大幅に向上します。 実験データによると、Multiverse-32Bモデルは同じコンテキストの長さで、性能が自立回帰モデルに比べて約2%高まりました。これは、Multiverseが速度だけでなくスケーラビリティでも優れていることを示しており、異なるバッチサイズにおいても最大2倍の速度向上を達成しています。 研究チームは、より多くの研究者が利用できるように、Multiverseエコシステムをオープンソース化しました。このエコシステムにはデータ、モデルの重み、訓練の詳細などが含まれています。実際のアプリケーションにおいて、Multiverseは生成要求に応じて柔軟に調整され、専用の制御タグを通じて順次と並列の生成を動的に切り替えることができ、生成される内容の流れと論理性が担保されます。 自然言語処理分野に新たな活力をもたらしたこの技術は、今後の実用化に大きな期待が寄せられています。