15일 전
JanusFlow: 통합적 다중모달 이해 및 생성을 위한 자기회귀성과 보정 흐름의 조화
Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan

초록
저희는 이미지 이해와 생성을 하나의 모델에서 통합하는 강력한 프레임워크인 JanusFlow를 제안합니다. JanusFlow는 자기회귀 언어 모델과 최신 생성 모델링 기법인 정정 흐름( Rectified Flow)을 통합하는 최소한의 아키텍처를 도입합니다. 본 연구의 핵심 발견은 정정 흐름이 대규모 언어 모델 프레임워크 내에서 간단히 학습될 수 있으며, 복잡한 아키텍처 수정 없이도 구현 가능하다는 점입니다. 또한 통합 모델의 성능을 더욱 향상시키기 위해 두 가지 핵심 전략을 채택하였습니다: (i) 이해 및 생성 인코더를 분리하고, (ii) 통합 학습 과정에서 두 인코더의 표현을 정렬하는 것입니다. 광범위한 실험을 통해 JanusFlow는 각각의 전문 모델과 비교해 유사하거나 우수한 성능을 보였으며, 기존의 통합 접근 방식에 비해 표준 벤치마크에서 현저히 뛰어난 성능을 나타냈습니다. 본 연구는 보다 효율적이고 다재다능한 시각-언어 모델 개발을 위한 중요한 한 걸음입니다.