HyperAIHyperAI

Command Palette

Search for a command to run...

Interroger deux fois : Apprentissage méta avec attention mixte dual pour la synthèse vidéo

Junyan Wang Yang Bai Yang Long Bingzhang Hu Zhenhua Chai Yu Guan Xiaolin Wei

Résumé

La synthèse vidéo vise à sélectionner des images représentatives pour conserver des informations de haut niveau, ce qui est généralement résolu en prédiction des scores d'importance par segment à l'aide d'une fonction softmax. Cependant, la fonction softmax rencontre des difficultés pour conserver des représentations de haut rang pour des informations visuelles ou séquentielles complexes, un problème connu sous le nom de « bouteille d'étranglement de la softmax » (Softmax Bottleneck). Dans cet article, nous proposons un nouveau cadre nommé modèle Dual Mixture Attention (DMASum) avec apprentissage méta pour la synthèse vidéo, qui aborde le problème de la bouteille d'étranglement de la softmax. La couche Mixture of Attention (MoA) augmente efficacement la capacité du modèle en utilisant deux fois l'auto-attention par requête, permettant ainsi de capturer les changements du deuxième ordre en plus de l'attention initiale requête-clé. Une nouvelle règle d'apprentissage méta sur une seule image est ensuite introduite pour améliorer la généralisation sur des petits ensembles de données avec des sources d'entraînement limitées. De plus, le DMASum exploite considérablement à la fois l'attention visuelle et séquentielle, reliant les images clés locales et l'attention globale de manière cumulative. Nous adoptons le nouveau protocole d'évaluation sur deux jeux de données publics, SumMe et TVSum. Les expériences qualitatives et quantitatives montrent des améliorations significatives par rapport aux méthodes les plus avancées actuellement disponibles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Interroger deux fois : Apprentissage méta avec attention mixte dual pour la synthèse vidéo | Articles | HyperAI