ReVisionLLM: 시간 기반 정렬을 위한 장시간 비디오의 재귀적 시각-언어 모델

대형 언어 모델(Large Language Models, LLMs)은 긴 텍스트에서 정보를 검색하는 데 우수하지만, 시각-언어 모델(Vision-Language Models, VLMs)들은 시간적 기반화(temporal grounding)가 필요한 장시간 비디오 처리에 어려움을 겪습니다. 특히 이러한 VLMs는 프레임 제한(frame limitations)으로 인해 정확한 이벤트 위치 파악에 필요한 중요한 시간적 세부 정보를 잃기 쉽습니다. 우리는 장시간 비디오에서 이벤트를 위치 파악하기 위해 설계된 재귀적인 시각-언어 모델인 ReVisionLLM을 제안합니다. 인간의 검색 전략에서 영감을 얻은 이 모델은 처음에는 광범위한 관심 구간을 대상으로 하며, 점진적으로 초점을 수정하여 정확한 시간 경계를 찾아냅니다. 우리의 모델은 몇 분에서 몇 시간까지 길이가 크게 다른 비디오를 원활하게 처리할 수 있습니다. 또한 우리는 구별되는 이벤트를 포착하기 위해 짧은 클립부터 시작하여 점차 더 긴 비디오로 확장하는 계층적 학습 전략(hierarchical training strategy)을 소개합니다. 우리 지식范围内, ReVisionLLM은 장시간 비디오에서 시간적 기반화를 수행할 수 있는 첫 번째 VLM이며, 여러 데이터셋에서 이전 최신 방법들보다 크게 우수한 성능을 보여주고 있습니다(예: MAD 데이터셋에서 +2.6% [email protected]). 코드는 https://github.com/Tanveer81/ReVisionLLM 에서 제공됩니다.注:在最后一句中,“範圍内” 是中文字符,可能是误输入。正确的韩文应该是 “범위 내에서”。以下是修正后的版本:우리 지식 범위 내에서, ReVisionLLM은 장시간 비디오에서 시간적 기반화를 수행할 수 있는 첫 번째 VLM이며, 여러 데이터셋에서 이전 최신 방법들보다 크게 우수한 성능을 보여주고 있습니다(예: MAD 데이터셋에서 +2.6% [email protected]). 코드는 https://github.com/Tanveer81/ReVisionLLM 에서 제공됩니다.