7일 전

MagDiff: 고정실화 영상 생성 및 편집을 위한 다중 정렬 확산 모델

Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang
MagDiff: 고정실화 영상 생성 및 편집을 위한 다중 정렬 확산 모델
초록

확산 모델은 영상 생성 및 영상 편집 모두에 널리 활용되고 있다. 각 분야는 고유한 작업 지향적 문제를 가지고 있어, 단일 확산 모델로 두 작업을 동시에 수행하는 것은 어렵다. 텍스트 프롬프트에 크게 의존하는 기존의 영상 확산 모델은 두 작업을 통합하는 데 활용될 수는 있으나, 텍스트와 이미지 간 이질적 모달 간의 정렬 능력이 부족하여 다양한 정렬 오류가 발생한다. 본 연구에서는 고해상도 영상 생성과 편집을 위한 통합적인 다중 정렬 확산 모델인 MagDiff를 처음으로 제안한다. 제안된 MagDiff는 세 가지 유형의 정렬을 도입한다. 첫째, 주체 중심 정렬(Subject-driven alignment)은 이미지 프롬프트와 텍스트 프롬프트 간의 균형을 조절하여 두 작업에 통합된 기반 생성 모델로 기능한다. 둘째, 적응형 프롬프트 정렬(Adaptive prompts alignment)은 동질적 및 이질적 정렬의 각각의 강점을 강조하기 위해 이미지 프롬프트와 텍스트 프롬프트에 서로 다른 가중치를 부여함으로써 정렬의 유연성을 높인다. 셋째, 고해상도 정렬(High-fidelity alignment)은 주체 이미지를 추가 입력으로 활용하여 영상 생성 및 편집의 해상도와 정확도를 더욱 향상시킨다. 네 가지 벤치마크에서 수행된 실험 결과는 제안한 방법이 각 작업에서 기존 방법보다 우수함을 입증한다.

MagDiff: 고정실화 영상 생성 및 편집을 위한 다중 정렬 확산 모델 | 최신 연구 논문 | HyperAI초신경