10일 전
VIRES: 스케치 및 텍스트 안내를 통한 비디오 인스턴스 재도색
Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, Boxin Shi

초록
우리는 스케치와 텍스트 가이드를 활용한 비디오 인스턴스 리페인팅 방법인 VIRES를 소개합니다. 이 방법은 비디오 인스턴스의 리페인팅, 교체, 생성 및 제거를 가능하게 합니다. 기존 접근 방식들은 시간적 일관성과 제공된 스케치 시퀀스에 대한 정확한 맞춤을 유지하는 데 어려움을 겪고 있습니다. VIRES는 텍스트-비디오 모델의 생성 사전을 활용하여 시간적 일관성을 유지하고 시각적으로 만족스러운 결과를 생성합니다. 우리는 표준화된 자기 스케일링을 적용한 Sequential ControlNet을 제안하는데, 이는 구조 레이아웃을 효과적으로 추출하고 고대비 스케치 세부 정보를 적응적으로 포착합니다. 또한, 스케치 주의 메커니즘을 통해 미세한 스케치 의미론을 해석하고 주입하기 위해 확산 트랜스포머 백본을 강화하였습니다. 스케치 인식 인코더는 리페인팅 결과가 제공된 스케치 시퀀스와 맞춰지도록 보장합니다. 또한, 우리는 비디오 인스턴스 편집 방법의 학습과 평가를 위한 상세 주석이 포함된 데이터셋 VireSet를 공헌합니다. 실험 결과는 VIRES의 효과성을 입증하며, 시각적 품질, 시간적 일관성, 조건 맞춤 및 인간 평가에서 최신 기술보다 우수한 성능을 보임을 확인할 수 있습니다.