12일 전
조합 가능한 디퓨전을 통한 Any-to-Any 생성
Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal

초록
우리는 입력 모달리티의 어떤 조합에서도 언어, 이미지, 비디오, 오디오와 같은 출력 모달리티의 어떤 조합도 생성할 수 있는 새로운 생성 모델인 Composable Diffusion (CoDi)를 제안한다. 기존의 생성형 AI 시스템과 달리 CoDi는 복수의 모달리티를 병렬로 생성할 수 있으며, 텍스트나 이미지와 같은 특정 모달리티 하위 집합에 국한되지 않은 입력을 지원한다. 많은 모달리티 조합에 대한 학습 데이터셋이 부족한 상황에서도, 우리는 입력 공간과 출력 공간에서 모달리티 간의 정렬을 제안한다. 이를 통해 CoDi는 어떤 입력 조합에도 자유롭게 조건부로 설정하고, 학습 데이터에 존재하지 않는 모달리티 조합도 생성할 수 있다. CoDi는 확장 가능한 생성 전략을 채택하며, 확산 과정 내에서 모달리티 간의 정렬을 연결함으로써 공유 다모달 공간을 구축한다. 이는 시간적으로 정렬된 비디오와 오디오와 같은 복잡하게 얽힌 모달리티의 동기화 생성을 가능하게 한다. 매우 사용자 정의가 가능하고 유연한 CoDi는 강력한 다모달 생성 품질을 달성했으며, 단일 모달리티 생성의 경우 기존 최고 수준의 모델들과 비교해도 우수하거나 동등한 성능을 보였다. 시연 및 코드는 프로젝트 페이지에서 확인할 수 있으며, 링크는 https://codi-gen.github.io 이다.