16일 전

가우시안 기반 대조적 프로포절 학습을 통한 약한 감독 하의 시계열 문장 지칭

{Yang Liu, Yuxin Peng, Qingchao Chen, Yanjie Huang, Minghang Zheng}
가우시안 기반 대조적 프로포절 학습을 통한 약한 감독 하의 시계열 문장 지칭
초록

시간 문장 기반(Temporal sentence grounding)은 트림되지 않은 비디오에서 자연어 질의에 가장 부각되는 순간을 탐지하는 것을 목표로 한다. 시간 경계를 라벨링하는 작업은 인력이 많이 들고 주관적인 성향을 가지므로, 최근 약한 감독(weakly-supervised) 방법에 대한 관심이 증가하고 있다. 기존의 대부분의 약한 감독 방법은 슬라이딩 윈도우 방식으로 후보 구간을 생성하는데, 이러한 방법은 콘텐츠에 독립적이며 품질이 낮은 경향이 있다. 게다가 이러한 방법들은 다른 비디오에서 무작위로 수집한 부정적인 시각-언어 쌍과 긍정적인 시각-언어 쌍을 구분하도록 모델을 학습시키지만, 동일한 비디오 내에서 매우 혼란스러운 영상 세그먼트를 무시하게 된다. 본 논문에서는 이러한 한계를 극복하기 위해 대비적 후보 학습(Contrastive Proposal Learning, CPL)을 제안한다. 구체적으로, 긴 비디오 내에 존재하는 다수의 이벤트를 특징화할 수 있도록, 여러 개의 학습 가능한 가우시안 함수를 사용하여 동일한 비디오 내에서 긍정적 및 부정적 후보 구간을 생성한다. 또한, 동일한 비디오 내에서 부정적 샘플을 효율적으로 채굴할 수 있도록, 제어 가능한 쉬움에서 어려움으로의 부정적 후보 채굴 전략을 제안한다. 이는 모델 최적화를 완화시키며, 매우 혼란스러운 장면 간의 구분을 가능하게 한다. 실험 결과, 제안한 방법은 Charades-STA 및 ActivityNet Captions 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 코드와 모델은 https://github.com/minghangz/cpl 에서 공개되어 있다.

가우시안 기반 대조적 프로포절 학습을 통한 약한 감독 하의 시계열 문장 지칭 | 최신 연구 논문 | HyperAI초신경