2달 전

장기 노이즈 비디오에서 다중 세분화 대응 학습

Lin, Yijie ; Zhang, Jie ; Huang, Zhenyu ; Liu, Jia ; Wen, Zujie ; Peng, Xi
장기 노이즈 비디오에서 다중 세분화 대응 학습
초록

기존의 비디오-언어 연구는 주로 짧은 비디오 클립의 학습에 초점을 맞추고 있으며, 긴 비디오를 모델링하는 데 필요한 계산 비용이 지나치게 높아 장기적인 시간적 종속성을 거의 탐구하지 못하고 있습니다. 이 문제를 해결하기 위해 하나의 실현 가능한 방법은 비디오 클립과 캡션 간의 대응 관계를 학습하는 것이지만, 이 방법은 필연적으로 다중 세분화 노이즈 대응(MNC, Multi-Granularity Noisy Correspondence) 문제에 직면하게 됩니다. 구체적으로 MNC는 클립-캡션 불일치(거칠게 분할된)와 프레임-단어 불일치(세밀하게 분할된)를 의미하며, 이는 시간적 학습과 비디오 이해를 방해합니다.본 논문에서는 이러한 MNC 문제를 통합된 최적 운송(OT, Optimal Transport) 프레임워크에서 해결하기 위한 NOise Robust Temporal Optimal traNsport (Norton)을 제안합니다. 간략히 말하면, Norton은 OT 기반으로 장기적인 종속성을 포착하기 위해 비디오-문단 및 클립-캡션 대조 손실을 사용합니다. 비디오-문단 대조에서 거칠게 분할된 불일치를 처리하기 위해 Norton은 일치 가능한 프롬프트 버킷을 통해 관련 없는 클립과 캡션을 필터링하고, 운송 거리에 따라 동기화되지 않은 클립-캡션 쌍을 재정렬합니다. 세밀하게 분할된 불일치를 처리하기 위해 Norton은 소프트 맥스 연산자를 활용하여 중요한 단어와 키 프레임을 식별합니다.또한 Norton은 OT 할당을 통해 정렬 목표를 수정함으로써 클립-캡션 대조에서 발생할 수 있는 잠재적인 오류 음성 샘플을 활용하여 정확한 시간적 모델링을 보장합니다. 다양한 실험들, 즉 비디오 검색, 비디오QA, 행동 분할 실험 결과가 본 방법의 효과성을 입증하였습니다. 코드는 https://lin-yijie.github.io/projects/Norton 에서 확인 가능합니다.