16 天前

JanusFlow:统一自回归与修正流以实现多模态理解与生成的协同

Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan
JanusFlow:统一自回归与修正流以实现多模态理解与生成的协同
摘要

我们提出JanusFlow,这是一种强大的统一框架,能够在一个模型中实现图像理解与生成的融合。JanusFlow引入了一种极简架构,将自回归语言模型与修正流(rectified flow)——一种生成建模领域的前沿方法——有机结合。我们的核心发现表明,修正流可直接在大型语言模型框架内进行训练,无需复杂的结构修改。为进一步提升统一模型的性能,我们采用了两项关键策略:(i)解耦理解与生成阶段的编码器,以及(ii)在统一训练过程中对齐两者的表示。大量实验表明,JanusFlow在各自领域内的表现可与专用模型相媲美甚至更优,同时在标准基准测试中显著超越现有统一方法。本工作为构建更高效、更通用的视觉-语言模型迈出了重要一步。

JanusFlow:统一自回归与修正流以实现多模态理解与生成的协同 | 最新论文 | HyperAI超神经