2ヶ月前
DreamLLM: 複合的な多様な理解と創造
Runpei Dong; Chunrui Han; Yuang Peng; Zekun Qi; Zheng Ge; Jinrong Yang; Liang Zhao; Jianjian Sun; Hongyu Zhou; Haoran Wei; Xiangwen Kong; Xiangyu Zhang; Kaisheng Ma; Li Yi

要約
本論文では、DreamLLMという学習フレームワークを紹介します。これは、マルチモーダル理解と生成の間でしばしば見落とされるシナジー(相乗効果)を活用した多様なマルチモーダル大規模言語モデル(MLLMs)を初めて実現します。DreamLLMは2つの基本的な原則に基づいて動作します。第1の原則は、言語と画像の事後確率の生成モデリングを行い、直接生のマルチモーダル空間からサンプリングすることに焦点を当てています。このアプローチは、CLIPなどの外部特徴抽出器に固有の制限や情報損失を回避し、より包括的なマルチモーダル理解が得られます。第2の原則は、テキストと画像コンテンツだけでなく、非構造化レイアウトも含む生のインターリーブド文書の生成を促進することです。これにより、DreamLLMはすべての条件付き、周辺的、および結合マルチモーダル分布を効果的に学習できます。その結果、DreamLLMは自由形式のインターリーブドコンテンツを生成できる最初のMLLMとなります。包括的な実験によって、DreamLLMがゼロショットマルチモーダル汎用モデルとして優れた性能を持つことが示されています。強化された学習シナジー(相乗効果)から恩恵を受けていることが確認されました。プロジェクトページ: https://dreamllm.github.io.