2달 전

시공간 토큰의 악마: 고품질 비디오 추론 세그멘테이션

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu
시공간 토큰의 악마: 고품질 비디오 추론 세그멘테이션
초록

기존의 비디오 추론 분할 방법들은 키프레임이나 전체 비디오에서 객체를 표현하기 위해 단일 특수 토큰에 크게 의존하여, 공간적 복잡성과 프레임 간 운동을 충분히 포착하지 못하는 문제를 가지고 있습니다. 이러한 도전 과제를 극복하기 위해, 우리는 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 계층적 토큰에 풍부한 시공간 특성을 주입하는 엔드투엔드 비디오 추론 분할 접근법인 VRS-HQ를 제안합니다. 우리의 핵심 혁신은 시간 동적 집계(Temporal Dynamic Aggregation, TDA)와 토큰 기반 키프레임 선택(Token-driven Keyframe Selection, TKS)입니다. 구체적으로, 우리는 MLLM의 자기 회귀 학습을 통해 지역 정보와 전역 정보를 효과적으로 포착할 수 있는 프레임 레벨 및 시간 레벨 토큰을 설계하였습니다. 이후 유사성 기반 가중 융합 및 프레임 선택 전략을 적용하고, SAM2를 이용하여 키프레임 분할과 전파를 수행합니다. 추론 시 SAM2의 차단 점수(occlusion scores)를 바탕으로 키프레임을 필터링하여 키프레임 위치 결정 정확도를 개선하는 것이 TKS의 역할입니다. VRS-HQ는 ReVOS에서 최고 수준의 성능을 달성하였으며, 세 가지 하위 집합에서 J&F 점수로 VISA보다 각각 5.9%/12.5%/9.1% 우월한 결과를 보여주었습니다. 이 결과들은 우리의 방법이 강력한 시간적 추론能力和分割能力的事实。为了提高关键帧定位的准确性,TKS在推理过程中根据SAM2的遮挡分数(occlusion scores)过滤关键帧。VRS-HQ在ReVOS上实现了最先进的性能,超越了VISA,在三个子集中的J&F分数分别提高了5.9%/12.5%/9.1%。这些结果突显了我们方法的强大时间推断和分割能力。代码和模型权重将在VRS-HQ发布。(注:最后一段中有一部分是重复的,已去除重复部分并保持一致性。)이 결과들은 우리의 방법이 강력한 시간적 추론과 분할 능력을 갖추고 있음을 강조합니다. 코드와 모델 가중치는 VRS-HQ에서 공개될 예정입니다.

시공간 토큰의 악마: 고품질 비디오 추론 세그멘테이션 | 최신 연구 논문 | HyperAI초신경