7일 전
NÜWA: 신경망 시각 세계 생성을 위한 시각 합성 사전 학습
Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, Nan Duan

초록
이 논문은 다양한 시각 합성 작업을 위해 새로운 시각 데이터를 생성하거나 기존의 시각 데이터(이미지 및 동영상)를 조작할 수 있는 통합형 다중모달 사전 학습 모델인 NÜWA를 제안한다. 다양한 시나리오에서 언어, 이미지, 동영상을 동시에 다루기 위해 3D 트랜스포머 인코더-디코더 프레임워크를 설계하였으며, 이는 동영상을 3차원 데이터로 처리할 뿐만 아니라 텍스트와 이미지를 각각 1차원 및 2차원 데이터로도 적응 가능하게 한다. 또한 시각 데이터의 특성을 고려하면서 계산 복잡도를 줄이기 위해 3D 근접 주의 메커니즘(3DNA)을 제안한다. NÜWA는 8개의 하류 작업에서 평가되었으며, 여러 강력한 베이스라인 모델과 비교하여 텍스트에서 이미지 생성, 텍스트에서 동영상 생성, 동영상 예측 등에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 더불어 텍스트 지도형 이미지 및 동영상 조작 작업에서 놀라운 제로샷(zero-shot) 능력도 보여주었다. 프로젝트 리포지토리는 https://github.com/microsoft/NUWA 입니다.