초록

통합 다중모달 모델(UMMs)은 단일 아키텍처 내에서 시각적 이해와 생성을 통합한다. 그러나 기존의 학습 방식은 일반적으로 이미지-텍스트 쌍(또는 시퀀스)에 의존하며, 이러한 캡션은 심지어 단순한 이미지를 설명하기 위해 수백 단어를 사용하더라도 세밀한 시각적 정보를 빠뜨리는 경향이 있다. 본 연구에서는 시각적 이해 인코더의 임베딩을 밀도 높은 '텍스트 프롬프트'로 활용하여, 캡션 없이 풍부한 지도 정보를 제공하는 자원 효율적인 후기 학습 방법인 재구성 정렬(Reconstruction Alignment, RecA)을 제안한다. 구체적으로 RecA는 UMM이 자체 시각적 이해 임베딩을 조건으로 하여 입력 이미지를 자기주도적 재구성 손실을 통해 재구성하도록 최적화함으로써, 이해와 생성 간의 정렬을 재조정한다. 비록 간단한 접근이지만 RecA는 광범위하게 적용 가능하다. 순차적(auto-regressive), 마스킹 순차적(masked-autoregressive), 확산 기반(diffusion-based) UMM 모두에서 일관되게 생성 및 편집 정밀도를 향상시킨다. 단 27 GPU시간만으로 RecA를 활용한 후기 학습이 GenEval(0.73 → 0.90)과 DPGBench(80.93 → 88.15)에서 이미지 생성 성능을 크게 개선하며, 편집 성능 벤치마크에서도 향상(ImgEdit: 3.38 → 3.75, GEdit: 6.94 → 7.25)을 보였다. 특히 RecA는 훨씬 더 큰 오픈소스 모델을 능가하며, 다양한 UMM 아키텍처에 널리 적용 가능함을 입증하여, UMM에 대한 효율적이고 일반적인 후기 정렬 전략으로서의 가능성을 제시한다.

소스 PDF 코드 보기