2달 전

D3G: 가우시안 사전분포를 활용한 시간적 문장 정지에 대한 일람 주석 탐구

Hanjun Li; Xiujun Shu; Sunan He; Ruizhi Qiao; Wei Wen; Taian Guo; Bei Gan; Xing Sun
D3G: 가우시안 사전분포를 활용한 시간적 문장 정지에 대한 일람 주석 탐구
초록

시간 문장 정렬(TSG)은 주어진 자연어 쿼리에 따라 잘라내지 않은 비디오에서 특정 순간을 찾는 것을 목표로 합니다. 최근 연구에서는 완전히 감독된 방법과 비교하여 약하게 감독된 방법이 여전히 큰 성능 차이를 보이고 있으며, 후자는 번거로운 타임스탬프 주석이 필요합니다. 본 연구에서는 완전히 감독된 방법과 유사한 경쟁력을 유지하면서 주석 작업의 비용을 줄이는 것을 목표로 합니다. 이를 달성하기 위해, 최근 제안된 단일 프레임 주석(단일 시점 주석이라고도 함)만을 사용하는 시간 문장 정렬 작업을 조사하였습니다. 이러한 설정 하에서, 우리는 Dynamic Gaussian prior based Grounding framework with Glance annotation(D3G)을 제안하며, 이는 Semantic Alignment Group Contrastive Learning 모듈(SA-GCL)과 Dynamic Gaussian prior Adjustment 모듈(DGA)으로 구성됩니다. 특히, SA-GCL은 Gaussian prior와 의미 일관성을 동시에 활용하여 2D 시간 맵에서 신뢰할 수 있는 양성 순간들을 샘플링하는데 기여하며, 이는 결합 임베딩 공간에서 양성 문장-순간 쌍들을 정렬하는 데 도움을 줍니다. 또한, 단일 시점 주석으로 인한 주석 편향을 완화하고 여러 사건으로 구성된 복잡한 쿼리를 처리하기 위해 DGA 모듈을 제안하였습니다. DGA 모듈은 분포를 동적으로 조정하여 대상 순간의 실제 값을 근사합니다. 세 가지 어려운 벤치마크에서 수행된 광범위한 실험들은 제안된 D3G의 효과성을 검증하였습니다. 이는 최신 약하게 감독된 방법들보다 크게 우수한 성능을 보이며, 완전히 감독된 방법들과의 성능 차이를 좁혔습니다. 코드는 https://github.com/solicucu/D3G에서 확인할 수 있습니다.

D3G: 가우시안 사전분포를 활용한 시간적 문장 정지에 대한 일람 주석 탐구 | 최신 연구 논문 | HyperAI초신경