비디오에서 다목적 이해를 위한 지반화된 시각-언어 표현 학습

최근 몇 년 동안 비디오-언어 학습의 결합이 점점 더 많은 관심을 받고 있습니다. 그러나 기존 연구는 주로 단일 또는 여러 개의 편집된 비디오 클립(이벤트)에 초점을 맞추고 있어, 추론 시 인간이 주석한 이벤트 경계가 필요하게 됩니다. 이러한 제약에서 벗어나기 위해, 우리는 자동으로 정보적인 이벤트를 감지하고 다중 문장 설명과 해당 이벤트 구간 간의 정렬을 효과적으로 발굴하는 프레임워크를 제안합니다. 이 프레임워크는 편집되지 않은 비디오에 적용됩니다.우리는 대략적인 수준의 비디오-언어 정렬 대신 세부적인 구간 수준의 정렬을 유도하기 위해 두 가지 듀얼 사전 작업을 제시합니다. 즉, 텍스트-이벤트 정착(Text-to-Event Grounding, TEG)과 이벤트-텍스트 생성(Event-to-Text Generation, ETG)입니다. TEG는 문장 집합이 주어졌을 때 가능한 이벤트 제안들을 적응적으로 정착시키도록 학습하며, 이를 위해 연합 의미 공간에서 모달 간 거리를 추정합니다. 한편, ETG는 이벤트 제안들이 주어졌을 때 일치하는 텍스트를 재구성(생성)하는 것을 목표로 하며, 이는 이벤트 표현이 의미 있는 의미 정보를 유지하도록 유도합니다.이벤트 집합과 텍스트 집합 사이의 정확한 라벨 할당을 촉진하기 위해, 우리는 모호한 경계 주석으로 인해 발생하는 부분 최적 매칭 결과를 완화하기 위한 새로운 의미 인식 비용(Semantic-aware Cost)을 제안합니다. 우리의 프레임워크는 시각적으로 근거된 언어 이해 및 생성 작업에 쉽게 확장될 수 있습니다.우리는 ActivityNet Captions, YouCook2 및 YouMakeup에서 최고 수준의 밀도 있는 비디오 캡셔닝 성능을 달성했으며, 다른 여러 언어 생성 및 이해 작업에서도 경쟁력 있는 성능을 보였습니다. 또한 우리의 방법은 PIC 4th Challenge의 MTVG와 MDVC 작업에서 1위를 차지했습니다. 우리의 코드는 공개적으로 사용 가능하며, 다음 링크에서 확인할 수 있습니다: https://github.com/zjr2000/GVL.