Command Palette
Search for a command to run...
Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

초록
우리는 단일 입력 이미지로부터 개인 맞춤형 동영상을 합성하는 고정밀 모델인 Lynx를 제안한다. 개방형 디퓨전 트랜스포머(Diffusion Transformer, DiT) 기반 모델을 기반으로 하며, 정체성의 정확한 유지가 가능하도록 두 가지 경량 어댑터를 도입하였다. ID-어댑터는 ArcFace에서 유도된 얼굴 임베딩을 효율적인 정체성 토큰으로 변환하기 위해 퍼세이버 리샘플러(Perceiver Resampler)를 활용하며, Ref-어댑터는 고정된 참조 경로로부터 추출한 밀도 높은 VAE 특징을 통합하여, 크로스 어텐션을 통해 모든 트랜스포머 계층에 세밀한 디테일을 주입한다. 이러한 모듈들은 시간적 일관성과 시각적 사실감을 유지하면서도 강력한 정체성 보존을 가능하게 한다. 40명의 피험자와 20개의 편향이 없는 프롬프트로 구성된 정밀하게 구성된 벤치마크를 기반으로 한 평가에서 총 800개의 테스트 케이스를 수행한 결과, Lynx는 우수한 얼굴 유사도, 경쟁력 있는 프롬프트 반영 능력, 뛰어난 동영상 품질을 입증하였으며, 개인 맞춤형 동영상 생성 기술의 수준을 한층 끌어올렸다.