HyperAIHyperAI

Command Palette

Search for a command to run...

Eine bessere Nutzung audiovisueller Hinweise: Dichte Video-Beschriftung mit bi-modalem Transformer

Vladimir Iashin; Esa Rahtu

Zusammenfassung

Dichte Video-Beschreibung (dense video captioning) zielt darauf ab, wichtige Ereignisse in ungeschnittenen Videos zu lokalisieren und zu beschreiben. Bestehende Methoden bewältigen diese Aufgabe hauptsächlich durch die Auswertung von rein visuellen Merkmalen, wobei der Audiostream vollständig vernachlässigt wird. Nur wenige frühere Arbeiten haben beide Modalitäten genutzt, jedoch zeigen sie entweder mangelhafte Ergebnisse oder unterstreichen die Bedeutung anhand eines Datensatzes mit einem spezifischen Bereich. In dieser Arbeit stellen wir den Bi-modalen Transformer vor, der die Transformer-Architektur für eine bimodale Eingabe verallgemeinert. Wir demonstrieren die Effektivität des vorgeschlagenen Modells bei der Nutzung von Audio- und Visualsequenzen für die dichte Video-Beschreibung, wobei das Modul in der Lage ist, jede beliebige Kombination zweier Modalitäten in einer Sequenz-zu-Sequenz-Aufgabe zu verarbeiten. Zudem zeigen wir, dass der vortrainierte bimodale Encoder als Teil des Bi-modalen Transformers als Merkmalsextraktor für ein einfaches Antragsgenerierungsmodul verwendet werden kann. Die Leistungsfähigkeit wird am anspruchsvollen ActivityNet Captions-Datensatz gezeigt, wo unser Modell außergewöhnliche Ergebnisse erzielt. Der Code ist verfügbar: v-iashin.github.io/bmt


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Eine bessere Nutzung audiovisueller Hinweise: Dichte Video-Beschriftung mit bi-modalem Transformer | Paper | HyperAI