Überwachte Videozusammenfassung durch mehrere Merkmalsmengen mit paralleler Aufmerksamkeit

Die Zuordnung von Wichtigkeitsbewertungen zu bestimmten Bildern oder (kurzen) Segmenten in einem Video ist für die Zusammenfassung entscheidend, stellt aber auch eine schwierige Aufgabe dar. Frühere Arbeiten nutzen ausschließlich eine Quelle visueller Merkmale. In diesem Artikel schlagen wir eine neuartige Modellarchitektur vor, die drei Merkmalsmengen für visuelle Inhalte und Bewegung kombiniert, um Wichtigkeitsbewertungen vorherzusagen. Die vorgeschlagene Architektur verwendet ein Aufmerksamkeitsmechanismus, bevor sie Bewegungsmerkmale und Merkmale, die den (statischen) visuellen Inhalt repräsentieren – also aus einem Bildklassifikationsmodell abgeleitet – fusioniert. Ausführliche experimentelle Evaluierungen werden für zwei bekannte Datensätze, SumMe und TVSum, berichtet. In diesem Kontext identifizieren wir methodologische Probleme in Bezug darauf, wie frühere Arbeiten diese Benchmark-Datensätze genutzt haben, und präsentieren ein faire Bewertungsschema mit angemessenen Datenpartitionen, das in zukünftigen Arbeiten verwendet werden kann. Bei der Verwendung von statischen und Bewegungsmerkmalen mit parallelem Aufmerksamkeitsmechanismus verbessern wir die Stand der Technik-Ergebnisse für SumMe, während wir gleichzeitig den aktuellen Stand der Technik für den anderen Datensatz erreichen.