17일 전

HierVL: 계층적 비디오-언어 임베딩 학습

Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman
HierVL: 계층적 비디오-언어 임베딩 학습
초록

비디오-언어 임베딩은 시각적 표현에 의미 정보를 주입할 수 있는 유망한 접근 방식이지만, 기존 방법들은 초단위 길이의 비디오 클립과 그에 수반되는 텍스트 사이의 단기적 관계만을 포착한다. 본 연구에서는 장기적 및 단기적 관계를 동시에 고려하는 새로운 계층적 비디오-언어 임베딩인 HierVL을 제안한다. 학습 데이터로는 인간 행동에 대한 타임스탬프가 부여된 텍스트 설명과, 긴 비디오 전체에 걸친 활동에 대한 고수준의 요약 텍스트(예: Ego4D에서 제공하는 형식)를 사용한다. 우리는 클립 수준과 비디오 수준에서 모두 텍스트-시각 정보의 정렬을 유도하는 계층적 대조 학습 목표를 도입한다. 클립 수준 제약은 단계별 설명을 활용하여 해당 순간에 일어나는 일을 포착하고, 비디오 수준 제약은 요약 텍스트를 이용해 왜 그 일이 일어나는지를 이해한다—즉, 활동의 보다 넓은 맥락과 주체의 의도를 포착한다. 제안한 계층적 구조는 단일 수준 대비 더 우수한 클립 표현을 생성하며, 장기적 비디오 모델링이 요구되는 작업에서 최신 기술(SotA) 수준의 성능을 달성하는 장기적 비디오 표현을 제공한다. HierVL은 EPIC-KITCHENS-100, Charades-Ego, HowTo100M 등 다양한 도전적인 하류 작업에 대해 제로샷 및 파인튜닝 설정 모두에서 성공적으로 전이 가능함을 입증하였다.