vor 6 Monaten

Zusammenfassung

Dense Video Captioning ist eine Aufgabe, bei der interessante Ereignisse aus einem ungeschnittenen Video lokalisiert und für jedes lokalisierte Ereignis eine textuelle Beschreibung (Caption) generiert wird. Die meisten vorherigen Ansätze im Bereich des Dense Video Captioning basieren ausschließlich auf visuellen Informationen und ignorieren die Audiospur vollständig. Doch Audio – insbesondere Sprache – stellt für einen menschlichen Beobachter entscheidende Hinweise dar, um eine Umgebung zu verstehen. In diesem Paper präsentieren wir einen neuen Ansatz für Dense Video Captioning, der beliebig viele Modalitäten zur Ereignisbeschreibung nutzen kann. Konkret zeigen wir, wie Audio- und Sprachmodalitäten ein Dense Video Captioning-Modell verbessern können. Wir setzen ein automatisches Spracherkennungssystem (ASR) ein, um eine zeitlich synchronisierte textuelle Beschreibung der Sprache zu erhalten (ähnlich wie Untertitel), die als separater Eingabedatenstrom neben den Videoframes und der entsprechenden Audiospur verwendet wird. Wir formulieren die Captioning-Aufgabe als maschinelle Übersetzungsproblematik und nutzen die kürzlich vorgeschlagene Transformer-Architektur, um multimodale Eingabedaten in textuelle Beschreibungen zu transformieren. Wir demonstrieren die Leistungsfähigkeit unseres Modells am ActivityNet Captions-Datensatz. Ablationsstudien zeigen einen erheblichen Beitrag der Audio- und Sprachkomponenten, was darauf hindeutet, dass diese Modalitäten erhebliche ergänzende Informationen gegenüber den Videoframes enthalten. Zudem führen wir eine detaillierte Analyse der ActivityNet Caption-Ergebnisse durch, indem wir die Kategorietags aus den ursprünglichen YouTube-Videos nutzen. Der Quellcode ist öffentlich verfügbar: github.com/v-iashin/MDVC

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Video Captioning

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Vladimir Iashin Esa Rahtu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Video Captioning

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Vladimir Iashin Esa Rahtu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Multi-modale dichte Video-Kommentierung | Paper | HyperAI

Command Palette

Multi-modale dichte Video-Kommentierung

Vladimir Iashin Esa Rahtu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Multi-modale dichte Video-Kommentierung

Vladimir Iashin Esa Rahtu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Multi-modale dichte Video-Kommentierung

Vladimir Iashin Esa Rahtu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters