초록

다수의 연구 노력이 이미지 생성과 이해를 위한 통합적인 접근 방식을 구축하기 위해 '다음 토큰 예측' 개념을 시각적 콘텐츠로 확장해 왔다. 그러나 이산 토큰을 활용한 자기회귀 모델링을 통해 이미지를 생성하려는 시도는 시각적 품질 저하, 왜곡된 출력, 복잡한 지시사항을 처리할 때 세부 사항을 정확히 표현하지 못하는 등의 문제로 인해 어려움을 겪어왔다. 이러한 한계는 자기회귀 추론 과정에서 누적되는 오류나 이산화 과정에서 발생하는 정보 손실 때문일 가능성이 크다. 아마도 이러한 도전 과제가 원인이라 할 수 있겠지만, 최근 연구들은 통합 모델링 접근 방식에서 벗어나, 이미지 생성을 확산( diffusion ) 목표와 언어 생성을 자기회귀 목표로 공동 학습하는 방향으로 점차 전환하고 있다. 본 연구에서는 강화 학습이 이산 자기회귀 모델링 방법의 아티팩트를 효과적으로 완화하고 생성 품질을 크게 향상시킬 수 있음을 보여주며, 이미지 및 언어 생성의 원활한 통합을 가능하게 한다. 제안하는 프레임워크인 X-Omni는 의미론적 이미지 토크나이저, 언어와 이미지 모두를 위한 통합 자기회귀 모델, 그리고 이미지 생성을 위한 오프라인 확산 디코더로 구성된다. X-Omni는 70억 파라미터(7B) 언어 모델을 기반으로 하여 이미지 생성 작업에서 최신 기술 수준의 성능을 달성하며, 높은 미적 품질의 이미지를 생성할 뿐 아니라 지시사항을 정확히 따르고 장문의 텍스트를 정밀하게 렌더링하는 데도 뛰어난 능력을 보여준다.

소스 PDF