Command Palette
Search for a command to run...

초록
우리는 원활한 다중 모달 생성 및 이해를 위한 오픈소스 기초 모델인 Lumina-DiMOO 를 소개한다. Lumina-DiMOO는 다양한 모달의 입력과 출력을 처리하기 위해 완전히 이산화된 확산 모델링(Discrete Diffusion Modeling)을 활용함으로써 기존의 통합형 모델들과 차별화된다. 이 혁신적인 접근 방식은 기존의 순차적 생성(autoregressive, AR) 또는 AR-확산 하이브리드 파라다임에 비해 더 높은 샘플링 효율성을 달성할 수 있으며, 텍스트-to-이미지 생성, 이미지-to-이미지 생성(예: 이미지 편집, 주제 기반 생성, 이미지 보정 등), 이미지 이해 등 광범위한 다중 모달 작업을 효과적으로 지원한다. Lumina-DiMOO는 여러 벤치마크에서 최고 수준의 성능을 기록하며, 기존의 오픈소스 통합형 다중 모달 모델들을 모두 초월한다. 다중 모달 및 이산 확산 모델 연구의 추가 발전을 촉진하기 위해, 우리는 코드와 체크포인트를 커뮤니티에 공개한다. 프로젝트 페이지: https://synbol.github.io/Lumina-DiMOO