16일 전

TACo: 비디오-텍스트 정렬을 위한 토큰 인지형 컨스타시브 컨트라스티브 학습

Jianwei Yang, Yonatan Bisk, Jianfeng Gao
TACo: 비디오-텍스트 정렬을 위한 토큰 인지형 컨스타시브 컨트라스티브 학습
초록

대조 학습(contrastive learning)은 비디오-텍스트 정렬 및 다중 모달 표현 학습을 위한 트랜스포머 기반의 시각-언어 모델 훈련에 널리 사용되어 왔다. 본 논문에서는 두 가지 새로운 기법을 활용하여 대조 학습을 개선하는 새로운 알고리즘인 토큰 인지형 계단식 대조 학습(Token-Aware Cascade contrastive learning, TACo)을 제안한다. 첫 번째로, 단어의 구문적 계열(예: 명사, 동사 등)을 고려하여 계산되는 토큰 인지형 대조 손실(token-aware contrastive loss)을 도입한다. 이는 비디오-텍스트 쌍에서 내용어(예: 명사, 동사)가 기능어보다 시각적 콘텐츠와 더 높은 정렬 가능성을 갖는다는 관찰에 기반한다. 두 번째로, 다중 모달 융합 층의 손실 추정을 효율적으로 수행하기 위해 하드 네거티브 예시의 소규모 집합을 생성하기 위해 계단식 샘플링(cascade sampling) 기법을 적용한다. TACo의 효과를 검증하기 위해, 텍스트-비디오 검색(YouCook2, MSR-VTT, ActivityNet), 비디오 동작 단계 위치 추정(CrossTask), 비디오 동작 분할(COIN) 등 다양한 하류 작업에 대해 사전 학습된 모델을 미세 조정(fine-tune)한 실험을 수행하였다. 실험 결과, 기존 방법에 비해 다양한 실험 설정에서 일관된 성능 향상을 확인하였으며, YouCook2, MSR-VTT, ActivityNet의 세 가지 공개 텍스트-비디오 검색 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성하였다.

TACo: 비디오-텍스트 정렬을 위한 토큰 인지형 컨스타시브 컨트라스티브 학습 | 최신 연구 논문 | HyperAI초신경