Erinnern Sie sich? Dichtes Video-Kaptionieren mit cross-modalen Gedächtnisabfragen

Die Forschung zum dichten Video-Captioning, die das automatische Lokalisieren und Beschriften aller Ereignisse in ungeschnittenen Videos zum Ziel hat, erhielt in letzter Zeit erhebliche Aufmerksamkeit. Mehrere Studien stellen Methoden vor, bei denen das dichte Video-Captioning als ein Mehraufgabenproblem der Ereignislokalisierung und Ereignisbeschriftung konzipiert wird, um Beziehungen zwischen den Aufgaben zu berücksichtigen. Dennoch ist es aufgrund des Mangels an semantischem Inhalt herausfordernd, beide Aufgaben ausschließlich mit visueller Eingabe zu bearbeiten. In dieser Studie adressieren wir dies durch den Vorschlag eines neuartigen Frameworks, das sich an der kognitiven Informationsverarbeitung von Menschen orientiert. Unser Modell nutzt externes Gedächtnis, um Vorwissen zu integrieren. Die vorgeschlagene Methode zur Gedächtnisabfrage verwendet multimodales Video-zu-Text-Matching. Um die abgerufenen Textmerkmale effektiv zu integrieren, wurden ein vielseitiger Encoder sowie ein Decoder mit visuellen und textuellen Cross-Attention-Modulen entwickelt. Vergleichsexperimente wurden durchgeführt, um die Effektivität der vorgeschlagenen Methode anhand der Datensätze ActivityNet Captions und YouCook2 zu demonstrieren. Die experimentellen Ergebnisse zeigen vielversprechende Leistungen unseres Modells ohne umfangreiches Vortraining anhand großer Videodatensätze.