HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-modale dichte Video-Kommentierung

Vladimir Iashin Esa Rahtu

Zusammenfassung

Dense Video Captioning ist eine Aufgabe, bei der interessante Ereignisse aus einem ungeschnittenen Video lokalisiert und für jedes lokalisierte Ereignis eine textuelle Beschreibung (Caption) generiert wird. Die meisten vorherigen Ansätze im Bereich des Dense Video Captioning basieren ausschließlich auf visuellen Informationen und ignorieren die Audiospur vollständig. Doch Audio – insbesondere Sprache – stellt für einen menschlichen Beobachter entscheidende Hinweise dar, um eine Umgebung zu verstehen. In diesem Paper präsentieren wir einen neuen Ansatz für Dense Video Captioning, der beliebig viele Modalitäten zur Ereignisbeschreibung nutzen kann. Konkret zeigen wir, wie Audio- und Sprachmodalitäten ein Dense Video Captioning-Modell verbessern können. Wir setzen ein automatisches Spracherkennungssystem (ASR) ein, um eine zeitlich synchronisierte textuelle Beschreibung der Sprache zu erhalten (ähnlich wie Untertitel), die als separater Eingabedatenstrom neben den Videoframes und der entsprechenden Audiospur verwendet wird. Wir formulieren die Captioning-Aufgabe als maschinelle Übersetzungsproblematik und nutzen die kürzlich vorgeschlagene Transformer-Architektur, um multimodale Eingabedaten in textuelle Beschreibungen zu transformieren. Wir demonstrieren die Leistungsfähigkeit unseres Modells am ActivityNet Captions-Datensatz. Ablationsstudien zeigen einen erheblichen Beitrag der Audio- und Sprachkomponenten, was darauf hindeutet, dass diese Modalitäten erhebliche ergänzende Informationen gegenüber den Videoframes enthalten. Zudem führen wir eine detaillierte Analyse der ActivityNet Caption-Ergebnisse durch, indem wir die Kategorietags aus den ursprünglichen YouTube-Videos nutzen. Der Quellcode ist öffentlich verfügbar: github.com/v-iashin/MDVC


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multi-modale dichte Video-Kommentierung | Paper | HyperAI