2달 전

NUWA-Infinity: 무한 시각 합성 위한 자기회귀적 생성의 자기회귀적 확장

Wu, Chenfei ; Liang, Jian ; Hu, Xiaowei ; Gan, Zhe ; Wang, Jianfeng ; Wang, Lijuan ; Liu, Zicheng ; Fang, Yuejian ; Duan, Nan
NUWA-Infinity: 무한 시각 합성 위한 자기회귀적 생성의 자기회귀적 확장
초록

본 논문에서는 무한 시각 합성 작업을 위한 생성 모델인 NUWA-Infinity를 소개합니다. 이 작업은 임의의 크기의 고해상도 이미지나 장시간 동안 지속되는 비디오를 생성하는 것을 의미합니다. 변수 크기 생성 작업을 처리하기 위해 자기회귀적 자기회귀 생성 메커니즘이 제안되었습니다. 여기서 전역 패치 수준의 자기회귀 모델은 패치 간 의존성을 고려하고, 국소 토큰 수준의 자기회귀 모델은 각 패치 내에서 시각 토큰 간의 의존성을 고려합니다. 이미 생성된 관련 패치를 캐시하여 현재 생성 중인 패치의 문맥으로 사용하기 위해 근접 문맥 풀(Nearby Context Pool, NCP)이 도입되었습니다. 이를 통해 패치 수준 의존성 모델링을 포기하지 않고 계산 비용을 크게 절감할 수 있습니다. 또한 적절한 생성 순서를 결정하고 순서 인식 위치 임베딩(order-aware positional embeddings)을 학습하기 위해 임의 방향 컨트롤러(Arbitrary Direction Controller, ADC)가 사용됩니다.DALL-E, Imagen 및 Parti와 비교했을 때, NUWA-Infinity는 임의의 크기를 가진 고해상도 이미지를 생성할 수 있으며, 추가적으로 장시간 비디오 생성을 지원합니다. 이미지와 비디오 모두를 다루는 NUWA와 비교했을 때, NUWA-Infinity는 해상도와 변수 크기 생성 측면에서 우수한 시각 합성 능력을 가지고 있습니다.GitHub 링크: https://github.com/microsoft/NUWA홈페이지 링크: https://nuwa-infinity.microsoft.com

NUWA-Infinity: 무한 시각 합성 위한 자기회귀적 생성의 자기회귀적 확장 | 최신 연구 논문 | HyperAI초신경