Interroger deux fois : Apprentissage méta avec attention mixte dual pour la synthèse vidéo

La synthèse vidéo vise à sélectionner des images représentatives pour conserver des informations de haut niveau, ce qui est généralement résolu en prédiction des scores d'importance par segment à l'aide d'une fonction softmax. Cependant, la fonction softmax rencontre des difficultés pour conserver des représentations de haut rang pour des informations visuelles ou séquentielles complexes, un problème connu sous le nom de « bouteille d'étranglement de la softmax » (Softmax Bottleneck). Dans cet article, nous proposons un nouveau cadre nommé modèle Dual Mixture Attention (DMASum) avec apprentissage méta pour la synthèse vidéo, qui aborde le problème de la bouteille d'étranglement de la softmax. La couche Mixture of Attention (MoA) augmente efficacement la capacité du modèle en utilisant deux fois l'auto-attention par requête, permettant ainsi de capturer les changements du deuxième ordre en plus de l'attention initiale requête-clé. Une nouvelle règle d'apprentissage méta sur une seule image est ensuite introduite pour améliorer la généralisation sur des petits ensembles de données avec des sources d'entraînement limitées. De plus, le DMASum exploite considérablement à la fois l'attention visuelle et séquentielle, reliant les images clés locales et l'attention globale de manière cumulative. Nous adoptons le nouveau protocole d'évaluation sur deux jeux de données publics, SumMe et TVSum. Les expériences qualitatives et quantitatives montrent des améliorations significatives par rapport aux méthodes les plus avancées actuellement disponibles.