11일 전

사전 훈련된 텍스트-비디오 확산 모델을 활용한 참조 비디오 객체 세그멘테이션 탐색

Zixin Zhu, Xuelu Feng, Dongdong Chen, Junsong Yuan, Chunming Qiao, Gang Hua
사전 훈련된 텍스트-비디오 확산 모델을 활용한 참조 비디오 객체 세그멘테이션 탐색
초록

이 논문에서는 사전 훈련된 텍스트-비디오(Text-to-Video, T2V) 확산 모델로부터 생성된 시각적 표현이 비디오 이해 작업에 어떻게 활용될 수 있는지를 탐구한다. 우리는 사전 훈련된 생성형 T2V 모델로부터 학습된 잠재 표현이 풍부한 의미 정보와 일관된 시계열 대응 관계를 함축하고 있으며, 이로 인해 자연스럽게 비디오 이해를 촉진할 수 있다고 가정한다. 이 가정은 전형적인 참조 비디오 객체 분할(Referring Video Object Segmentation, R-VOS) 작업을 통해 검증된다. 우리는 고정된 사전 훈련된 T2V 모델 기반으로 전용 구성 요소를 특별히 설계한 새로운 프레임워크인 ‘VD-IT’를 제안한다. 구체적으로 VD-IT는 텍스트 정보를 조건 입력으로 사용하여 시간에 걸쳐 의미 일관성을 보장함으로써 정밀한 시계열 인스턴스 매칭을 가능하게 한다. 또한 이미지 토큰을 보조적인 텍스트 입력으로 도입하여 특징 집합을 풍부하게 하고, 더 세밀하고 정교한 마스크 생성을 가능하게 한다. 더불어 기존의 표준 가우시안 노이즈 대신, 추가적인 노이즈 예측 모듈을 도입하여 비디오에 특화된 노이즈를 예측함으로써 특징의 정밀도를 유지하고 분할 정확도를 향상시킬 수 있다. 광범위한 실험을 통해 우리는 예상치 못하게, 기존에 널리 사용되는 비디오 백본(예: Video Swin Transformer)과 달리, 고정된 생성형 T2V 확산 모델이 의미 일치성과 시계열 일관성을 더 잘 유지할 잠재력을 지니고 있음을 관찰하였다. 기존의 표준 벤치마크에서 VD-IT는 많은 기존 최고 수준의 방법들을 능가하는 매우 경쟁력 있는 성능을 달성하였다. 코드는 https://github.com/buxiangzhiren/VD-IT 에서 공개되어 있다.

사전 훈련된 텍스트-비디오 확산 모델을 활용한 참조 비디오 객체 세그멘테이션 탐색 | 최신 연구 논문 | HyperAI초신경