HyperAIHyperAI

Command Palette

Search for a command to run...

Fusion de Caractéristiques Attentionnelles Légère : Une Nouvelle Base de Référence pour la Recherche Vidéo à Partir du Texte

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Résumé

Dans cet article, nous revisitons la fusion de caractéristiques, un sujet traditionnel, dans le nouveau contexte de la recherche vidéo à partir du texte. Contrairement aux recherches précédentes qui ne considéraient la fusion de caractéristiques qu'à une seule extrémité, que ce soit la vidéo ou le texte, nous visons une fusion de caractéristiques pour les deux extrémités au sein d'un cadre unifié. Nous formulons l'hypothèse selon laquelle l'optimisation de la combinaison convexe des caractéristiques est préférable à la modélisation de leurs corrélations par une attention auto multi-têtes computationnellement lourde. Nous proposons Lightweight Attentional Feature Fusion (LAFF). LAFF réalise la fusion de caractéristiques à la fois aux stades précoces et tardifs, et aux deux extrémités, vidéo et texte, ce qui en fait une méthode puissante pour exploiter des caractéristiques diverses (pré-existantes). L'interprétabilité de LAFF peut être utilisée pour la sélection des caractéristiques. De nombreuses expériences sur cinq ensembles de référence publics (MSR-VTT, MSVD, TGIF, VATEX et TRECVID AVS 2016-2020) justifient LAFF comme nouvelle base de référence pour la recherche vidéo à partir du texte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp