16 天前
JanusFlow:统一自回归与修正流以实现多模态理解与生成的协同
Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan

摘要
我们提出JanusFlow,这是一种强大的统一框架,能够在一个模型中实现图像理解与生成的融合。JanusFlow引入了一种极简架构,将自回归语言模型与修正流(rectified flow)——一种生成建模领域的前沿方法——有机结合。我们的核心发现表明,修正流可直接在大型语言模型框架内进行训练,无需复杂的结构修改。为进一步提升统一模型的性能,我们采用了两项关键策略:(i)解耦理解与生成阶段的编码器,以及(ii)在统一训练过程中对齐两者的表示。大量实验表明,JanusFlow在各自领域内的表现可与专用模型相媲美甚至更优,同时在标准基准测试中显著超越现有统一方法。本工作为构建更高效、更通用的视觉-语言模型迈出了重要一步。