2달 전

번호 매기기: 시간적 지면 영상 like Flipping Manga

Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

초록

비디오 대형 언어 모델(Vid-LLMs)은 비디오 콘텐츠를 이해하여 QA 대화를 수행하는 데에서 상당한 발전을 이룩했습니다. 그러나 이 시각적 이해를 정확한 시간적 위치 추정이 필요한 작업으로 확장하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해, 우리는 Number-Prompt (NumPro)라는 새로운 방법을 소개합니다. NumPro는 각 비디오 프레임에 고유한 숫자 식별자를 추가함으로써, 시각적 이해와 시간적 위치 추정을 연결시키는 Vid-LLMs의 능력을 강화합니다. 비디오를 번호가 매겨진 프레임 이미지 시퀀스로 취급하여, NumPro는 VTG를 직관적인 과정으로 변환합니다: 순서대로 만화 패널을 넘기는 것과 같습니다.这样一来，Vid-LLMs可以“阅读”事件时间线，将视觉内容与相应的时间信息准确关联。我们的实验表明，NumPro在不增加计算成本的情况下显著提升了顶级Vid-LLMs的VTG性能。此外，在NumPro增强的数据集上进行微调定义了VTG的新最先进水平，比之前表现最好的方法在时刻检索的mIoU上提高了6.9%，在高光检测的mAP上提高了8.5%。代码将在 https://github.com/yongliang-wu/NumPro 에 공개될 예정입니다。为了确保译文更加符合韩语表达习惯，以下是进一步优化后的版本：비디오 대형 언어 모델(Vid-LLMs)은 비디오 콘텐츠를 이해하여 QA 대화를 수행하는 데에서 상당한 발전을 이루었습니다. 그러나 이 시각적 이해를 정확한 시간적 위치 추정이 필요한 작업으로 확장하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해, 우리는 Number-Prompt (NumPro)라는 새로운 방법을 제안합니다. NumPro는 각 비디오 프레임에 고유한 숫자 식별자를 추가하여, 시각적 이해와 시간적 위치 추정 사이의 간극을 메우는 Vid-LLMs의 능력을 향상시킵니다. 비디오를 번호가 매겨진 프레임 이미지 시퀀스로 취급함으로써, NumPro는 VTG를 직관적인 과정으로 변환합니다: 순서대로 만화 패널을 넘기는 것과 같습니다. 이렇게 하면 Vid-LLMs가 “읽기” 사건 타임라인을 통해 시각적 콘텐츠와 해당 시간 정보를 정확히 연계할 수 있습니다. 우리의 실험 결과는 NumPro가 추가적인 계산 비용 없이 최상위 Vid-LLMs의 VTG 성능을 크게 향상시킨다는 것을 보여줍니다. 또한, NumPro로 강화된 데이터셋에서 미세 조정(fine-tuning)하면 VTG의 새로운 최신 기술(state-of-the-art) 수준을 정의하며, 이전 최고 성능 방법보다 순간 검색(moment retrieval)에서 mIoU가 6.9%, 하이라이트 감지(highlight detection)에서 mAP가 8.5% 개선되었습니다. 코드는 https://github.com/yongliang-wu/NumPro 에서 제공될 예정입니다.