Doppelt Abfragen: Duales Mischungs-Aufmerksamkeits-Meta-Lernen für Videozusammenfassung

Die Videozusammenfassung zielt darauf ab, repräsentative Frames auszuwählen, um hochwertige Informationen zu bewahren. Dies wird in der Regel durch die Vorhersage von Segmentwichtigkeitsbewertungen mittels einer Softmax-Funktion gelöst. Allerdings leidet die Softmax-Funktion daran, dass sie für komplexe visuelle oder sequenzielle Informationen hohe Rangdarstellungen nicht gut behält, was als das „Softmax-Flaschenhalsproblem“ bekannt ist. In dieser Arbeit schlagen wir ein neues Framework vor, das als Dual Mixture Attention (DMASum) Modell mit Metalern bezeichnet wird und das Problem des Softmax-Flaschenhalses angeht. Dabei erhöht die Mischung der Aufmerksamkeitsschicht (MoA) die Modellkapazität effektiv durch zweifache Selbst-Abfrage-Aufmerksamkeit, die sowohl die anfängliche Abfrage-Schlüssel-Aufmerksamkeit als auch Veränderungen zweiter Ordnung erfassen kann. Zudem wird eine neue Regel des Einzelbild-Metalerns eingeführt, um eine bessere Generalisierung bei kleinen Datensätzen mit begrenzten Trainingsquellen zu erreichen. Des Weiteren nutzt DMASum visuelle und sequenzielle Aufmerksamkeit in einem kumulativen Ansatz, um lokale Schlüsselbilder und globale Aufmerksamkeit zu verbinden. Wir wenden das neue Evaluationsprotokoll auf zwei öffentlichen Datensätzen an: SumMe und TVSum. Sowohl qualitative als auch quantitative Experimente zeigen erhebliche Verbesserungen im Vergleich zu den bislang besten Methoden.