HyperAIHyperAI

Command Palette

Search for a command to run...

Überwachte Videozusammenfassung durch mehrere Merkmalsmengen mit paralleler Aufmerksamkeit

Junaid Ahmed Ghauri Sherzod Hakimov Ralph Ewerth

Zusammenfassung

Die Zuordnung von Wichtigkeitsbewertungen zu bestimmten Bildern oder (kurzen) Segmenten in einem Video ist für die Zusammenfassung entscheidend, stellt aber auch eine schwierige Aufgabe dar. Frühere Arbeiten nutzen ausschließlich eine Quelle visueller Merkmale. In diesem Artikel schlagen wir eine neuartige Modellarchitektur vor, die drei Merkmalsmengen für visuelle Inhalte und Bewegung kombiniert, um Wichtigkeitsbewertungen vorherzusagen. Die vorgeschlagene Architektur verwendet ein Aufmerksamkeitsmechanismus, bevor sie Bewegungsmerkmale und Merkmale, die den (statischen) visuellen Inhalt repräsentieren – also aus einem Bildklassifikationsmodell abgeleitet – fusioniert. Ausführliche experimentelle Evaluierungen werden für zwei bekannte Datensätze, SumMe und TVSum, berichtet. In diesem Kontext identifizieren wir methodologische Probleme in Bezug darauf, wie frühere Arbeiten diese Benchmark-Datensätze genutzt haben, und präsentieren ein faire Bewertungsschema mit angemessenen Datenpartitionen, das in zukünftigen Arbeiten verwendet werden kann. Bei der Verwendung von statischen und Bewegungsmerkmalen mit parallelem Aufmerksamkeitsmechanismus verbessern wir die Stand der Technik-Ergebnisse für SumMe, während wir gleichzeitig den aktuellen Stand der Technik für den anderen Datensatz erreichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp