X-Omni: 강화학습이 이산 순차적 이미지 생성 모델을 다시 한 번 뛰어나게 만든다
시각 콘텐츠에 대해 '다음 토큰 예측' 패러다임을 확장하기 위한 수많은 노력이 이루어져 왔으며, 이는 이미지 생성과 이해를 위한 통합적인 접근 방식을 구축하려는 목적을 가지고 있다. 그러나 이산 토큰을 사용한 순차적 모델링(autoregressive modeling)을 통해 이미지를 생성하려는 시도는 시각적 질이 낮고, 출력이 왜곡되며, 복잡한 세부 사항을 렌더링할 때 복잡한 지시사항을 제대로 따르지 못하는 등의 문제에 시달려 왔다. 이러한 한계는 순차적 추론 과정에서 누적되는 오류나 이산화 과정에서 발생하는 정보 손실에 기인할 가능성이 크다. 아마도 이러한 도전 과제 때문일 것으로 보이며, 최근 연구들은 통합 모델링 접근법에서 벗어나, 이미지 생성을 확산(diffusion) 목표와 언어 생성을 순차적 목표로 함께 학습하는 방향으로 점차 전환하고 있다. 본 연구에서는 강화학습이 이산 순차적 모델링 방법의 아티팩트를 효과적으로 완화하고 생성 품질을 크게 향상시킬 수 있음을 보여주며, 이미지와 언어 생성의 원활한 통합을 가능하게 한다. 본 연구의 프레임워크는 의미론적 이미지 토크나이저, 언어와 이미지 모두를 위한 통합 순차적 모델, 그리고 이미지 생성을 위한 오프라인 확산 디코더로 구성되며, 이를 X-Omni라 명명한다. X-Omni는 7B 규모의 언어 모델을 사용하여 이미지 생성 과제에서 최신 기준(SOTA) 성능을 달성하며, 높은 미적 품질의 이미지를 생성할 뿐만 아니라, 지시사항을 정확히 따르고 긴 텍스트를 효과적으로 렌더링하는 데도 뛰어난 능력을 보여준다.