Fusion de Caractéristiques Attentionnelles Légère : Une Nouvelle Base de Référence pour la Recherche Vidéo à Partir du Texte

Dans cet article, nous revisitons la fusion de caractéristiques, un sujet traditionnel, dans le nouveau contexte de la recherche vidéo à partir du texte. Contrairement aux recherches précédentes qui ne considéraient la fusion de caractéristiques qu'à une seule extrémité, que ce soit la vidéo ou le texte, nous visons une fusion de caractéristiques pour les deux extrémités au sein d'un cadre unifié. Nous formulons l'hypothèse selon laquelle l'optimisation de la combinaison convexe des caractéristiques est préférable à la modélisation de leurs corrélations par une attention auto multi-têtes computationnellement lourde. Nous proposons Lightweight Attentional Feature Fusion (LAFF). LAFF réalise la fusion de caractéristiques à la fois aux stades précoces et tardifs, et aux deux extrémités, vidéo et texte, ce qui en fait une méthode puissante pour exploiter des caractéristiques diverses (pré-existantes). L'interprétabilité de LAFF peut être utilisée pour la sélection des caractéristiques. De nombreuses expériences sur cinq ensembles de référence publics (MSR-VTT, MSVD, TGIF, VATEX et TRECVID AVS 2016-2020) justifient LAFF comme nouvelle base de référence pour la recherche vidéo à partir du texte.