2달 전
두 번 쿼리하기: 비디오 요약을 위한 이중 혼합 주의 메타 학습
Junyan Wang; Yang Bai; Yang Long; Bingzhang Hu; Zhenhua Chai; Yu Guan; Xiaolin Wei

초록
비디오 요약은 대표적인 프레임을 선택하여 고차원 정보를 유지하는 것을 목표로 하며, 일반적으로 세그먼트별 중요도 점수를 소프트맥스 함수를 통해 예측하여 해결됩니다. 그러나 소프트맥스 함수는 복잡한 시각적 또는 순차적 정보에 대한 높은 순위 표현을 유지하는 데 어려움이 있으며, 이를 소프트맥스 병목 문제(Softmax Bottleneck problem)라고 합니다. 본 논문에서는 이 문제를 해결하기 위해 소프트맥스 병목 문제를 극복하는 메타 학습을 사용한 새로운 프레임워크인 듀얼 믹스처 어텐션(Dual Mixture Attention, DMASum) 모델을 제안합니다. 여기서 믹스처 오브 어텐션(Mixture of Attention, MoA) 계층은 초기 쿼리-키 어텐션뿐만 아니라 두 번째 차원의 변화까지 포착할 수 있는 두 번의 자기 쿼리 어텐션을 사용하여 모델 용량을 효과적으로 증가시킵니다. 또한, 새로운 싱글 프레임 메타 학습 규칙이 도입되어 제한된 훈련 자료를 가진 작은 데이터셋에 대해 더 넓은 일반화를 달성할 수 있습니다. 더욱이, DMASum은 지역 키 프레임과 전역 어텐션을 누적 방식으로 연결하여 시각적 및 순차적 어텐션을 크게 활용합니다. 우리는 SumMe와 TVSum이라는 두 공개 데이터셋에서 새로운 평가 프로토콜을 적용하였습니다. 정성적 및 정량적 실험 결과는 기존 최신 방법들보다 상당히 개선되었음을 보여줍니다.