7일 전
VLCap: 시각-언어 대조 학습을 활용한 일관성 있는 비디오 단락 캡션 생성
Kashu Yamazaki, Sang Truong, Khoa Vo, Michael Kidd, Chase Rainwater, Khoa Luu, Ngan Le

초록
본 논문에서는 시각과 언어의 상호작용을 포함하는 인간의 인지 과정을 활용하여, 정리되지 않은 비디오에 대해 일관성 있는 단락 형식의 설명을 생성한다. 우리는 두 가지 모달리티로 구성된 시각-언어(VL) 특징을 제안한다. 첫째, 시각 모달리티는 전체 장면의 전반적인 시각적 콘텐츠를 포착하는 데 사용되며, 둘째, 언어 모달리티는 인간 및 비인간 객체(예: 동물, 차량 등)의 장면 요소 설명뿐만 아니라 시각적 및 비시각적 요소(예: 관계, 활동 등)를 추출하는 데 사용된다. 또한, 제안하는 VLCap 모델을 대조 학습 기반의 시각-언어 손실(VL loss)으로 훈련할 것을 제안한다. ActivityNet Captions 및 YouCookII 데이터셋에서 수행한 실험과 아블레이션 연구 결과, 본 연구에서 제안하는 VLCap은 정확도 및 다양성 지표 측면에서 기존 최고 성능(SOTA) 방법들을 모두 상회함을 확인하였다.