15日前
JanusFlow:統一的なマルチモーダル理解および生成のための自己回帰性と修整流の調和
Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan

要約
本稿では、画像理解と画像生成を一つのモデル内で統合する強力なフレームワーク「JanusFlow」を提案する。JanusFlowは、自己回帰型言語モデルと、生成モデル分野における最先端手法である「補正流れ(rectified flow)」を統合するミニマルなアーキテクチャを導入している。本研究の核心的な発見は、補正流れが大規模言語モデルの枠組み内で直感的かつ簡便に学習可能であり、複雑なアーキテクチャの変更を必要としないことである。さらに、統合モデルの性能を向上させるために、以下の2つの鍵となる戦略を採用した:(i) 理解用エンコーダと生成用エンコーダの分離、(ii) 統合学習過程における両者の表現の整合化。広範な実験の結果、JanusFlowはそれぞれの分野で専門化されたモデルと同等または優れた性能を達成するとともに、既存の統合型アプローチと比較して、標準ベンチマークにおいて顕著な優位性を示した。本研究は、より効率的で汎用性の高い視覚言語モデルの実現に向けての一歩を示している。