2달 전
DreamLLM: 시너지 다중 모드 이해 및 생성
Runpei Dong; Chunrui Han; Yuang Peng; Zekun Qi; Zheng Ge; Jinrong Yang; Liang Zhao; Jianjian Sun; Hongyu Zhou; Haoran Wei; Xiangwen Kong; Xiangyu Zhang; Kaisheng Ma; Li Yi

초록
본 논문은 DreamLLM을 소개합니다. DreamLLM은 다중 모드 이해와 생성 사이의 종종 간과되는 시너지를 활용하여 다양한 다중 모드 대형 언어 모델(MLLMs)을 처음으로 실현하는 학습 프레임워크입니다. DreamLLM은 두 가지 기본 원칙에 따라 작동합니다. 첫 번째 원칙은 언어와 이미지 사후 확률의 생성 모델링을 원시 다중 모드 공간에서 직접 샘플링하여 수행하는 것입니다. 이 접근 방식은 CLIP과 같은 외부 특성 추출기에서 고유한 제약 조건과 정보 손실을 피하고, 더욱 철저한 다중 모드 이해를 얻을 수 있습니다. 두 번째 원칙은 텍스트와 이미지 콘텐츠뿐만 아니라 비정형 레이아웃도 포함하는 원시, 교차된 문서의 생성을 촉진하는 것입니다. 이는 DreamLLM이 모든 조건부, 주변, 그리고 결합 다중 모드 분포를 효과적으로 학습할 수 있게 합니다. 그 결과, DreamLLM은 자유 형식의 교차 콘텐츠를 생성할 수 있는 최초의 MLLM입니다. 포괄적인 실험들은 강화된 학습 시너지 덕분에 DreamLLM이 제로샷 다중 모드 전문가로서 우수한 성능을 발휘함을 입증합니다. 프로젝트 페이지: https://dreamllm.github.io.