7일 전

HowToCaption: 대규모 비디오 애노테이션을 변환하기 위한 LLM 프롬프팅 기법

Nina Shvetsova, Anna Kukleva, Xudong Hong, Christian Rupprecht, Bernt Schiele, Hilde Kuehne
HowToCaption: 대규모 비디오 애노테이션을 변환하기 위한 LLM 프롬프팅 기법
초록

지침 영상은 자동 음성 인식 시스템(ASR)을 통해 영상의 오디오 신호에서 추출한 자막을 활용함으로써 텍스트-영상 또는 다중 모달 표현 학습의 일반적인 소스이다. 그러나 인간이 작성한 캡션과는 달리, 음성 및 자막은 영상의 시각적 콘텐츠와 자연스럽게 일치하지 않으며, 이로 인해 오직 노이즈가 많은 감독 신호를 제공한다. 결과적으로, 대규모의 인적 레이블 없이 수집된 웹 영상 학습 데이터는 텍스트-영상 모델 학습에 있어서 여전히 최적의 상태가 아니다. 본 연구에서는 대규모로 영상 콘텐츠와 일치하는 고품질의 영상 설명을 얻기 위해 대규모 언어 모델(LLM)의 능력을 활용하는 방안을 제안한다. 구체적으로, 지침 영상의 ASR 자막을 기반으로 LLM에 현실적인 영상 캡션을 생성하도록 프롬프트를 설정한다. 이를 위해 단일 문장 이상의 맥락 정보를 포착할 수 있도록 더 긴 자막 텍스트를 고려할 수 있는 프롬프팅 방법을 도입한다. 또한, 자막의 타임스탬프를 기반으로 생성된 각 캡션에 대해 LLM에 타임스탬프를 생성하도록 추가 프롬프팅하여, 생성된 캡션을 영상과 시간적으로 정렬한다. 이를 통해 인간이 작성한 캡션과 유사한 형태의 영상 설명을 인적 감독 없이 대규모로 확보할 수 있다. 본 방법을 HowTo100M 데이터셋의 자막에 적용하여 새로운 대규모 데이터셋인 HowToCaption을 구축하였다. 평가 결과, 생성된 캡션이 다양한 벤치마크 데이터셋에서 제로샷 텍스트-영상 검색 및 영상 캡셔닝 작업에서 성능을 크게 향상시키는 것은 물론, 텍스트 내레이션과 오디오 간의 분리(디센틀링)를 가능하게 하여 텍스트-영상-오디오 작업에서의 성능 향상에도 기여함을 확인하였다.