2달 전

주목을 이용한 학습 가능한 흐름 필드: 제어 가능한 사람 이미지 생성

Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang, Miaojing Shi, Sen He
주목을 이용한 학습 가능한 흐름 필드: 제어 가능한 사람 이미지 생성
초록

제어 가능한 사람 이미지 생성은 참조 이미지를 기반으로 사람 이미지를 생성하는 것을 목표로 하며, 사람의 외모나 자세에 대한 정밀한 제어를 가능하게 합니다. 그러나 이전 방법들은 전체적인 이미지 품질을 높이는 데 성공했음에도 불구하고, 참조 이미지에서 미세한 질감 세부 사항을 왜곡하는 경향이 있습니다. 이러한 왜곡은 참조 이미지의 해당 영역에 충분한 주의를 기울이지 못함으로써 발생한다고 판단됩니다. 이를 해결하기 위해, 우리는 학습 가능한 유동 필드(learning flow fields, Leffa)를 제안합니다. 이는 훈련 중 주의 층에서 대상 쿼리가 올바른 참조 키에 주목하도록 명시적으로 안내합니다. 구체적으로, 확산 기반 베이스라인 내 주의 맵 위에 정규화 손실(regularization loss)을 추가하여 실현됩니다. 우리의 광범위한 실험 결과는 Leffa가 외모 제어(가상 피팅)와 자세 제어(자세 전송)에서 최고 수준의 성능을 달성하며, 미세한 세부 사항 왜곡을 크게 줄이고 동시에 높은 이미지 품질을 유지한다는 것을 보여줍니다. 또한, 우리의 손실 함수는 모델 독립적이며 다른 확산 모델의 성능 개선에도 사용될 수 있음을 입증하였습니다.

주목을 이용한 학습 가능한 흐름 필드: 제어 가능한 사람 이미지 생성 | 최신 연구 논문 | HyperAI초신경