2달 전

경량 주의력 특성 융합: 텍스트-비디오 검색을 위한 새로운 기준선

Hu, Fan ; Chen, Aozhu ; Wang, Ziyue ; Zhou, Fangming ; Dong, Jianfeng ; Li, Xirong
경량 주의력 특성 융합: 텍스트-비디오 검색을 위한 새로운 기준선
초록

본 논문에서는 텍스트-비디오 검색이라는 새로운 맥락에서 오래된 주제인 특성 융합을 재검토합니다. 이전 연구가 비디오 또는 텍스트 중 한 쪽에서만 특성 융합을 고려한 것과 달리, 우리는 통합된 프레임워크 내에서 양쪽 모두에 대한 특성 융합을 목표로 합니다. 우리는 계산적으로 무거운 다중 헤드 자기 주의(multi-head self attention)를 통해 특성 간의 상관관계를 모델링하는 것보다, 특성의 볼록 조합(convex combination)을 최적화하는 것이 더 선호된다고 가정합니다. 이를 위해 경량 주의 기반 특성 융합(Lightweight Attentional Feature Fusion, LAFF) 방법을 제안합니다. LAFF는 초기 단계와 후기 단계, 그리고 비디오와 텍스트 양쪽에서 특성 융합을 수행하여 다양한 (오프더셀프) 특성을 활용하는 강력한 방법입니다. LAFF의 해석 가능성이 특성 선택에 사용될 수 있습니다. MSR-VTT, MSVD, TGIF, VATEX 및 TRECVID AVS 2016-2020 등 다섯 개의 공개 벤치마크 데이터셋에 대한 광범위한 실험은 LAFF가 텍스트-비디오 검색 분야의 새로운 기준(baseline)으로서 합당함을 입증합니다.

경량 주의력 특성 융합: 텍스트-비디오 검색을 위한 새로운 기준선 | 최신 연구 논문 | HyperAI초신경