vor 2 Monaten

Eine bessere Nutzung audiovisueller Hinweise: Dichte Video-Beschriftung mit bi-modalem Transformer

Vladimir Iashin; Esa Rahtu

Abstract

Dichte Video-Beschreibung (dense video captioning) zielt darauf ab, wichtige Ereignisse in ungeschnittenen Videos zu lokalisieren und zu beschreiben. Bestehende Methoden bewältigen diese Aufgabe hauptsächlich durch die Auswertung von rein visuellen Merkmalen, wobei der Audiostream vollständig vernachlässigt wird. Nur wenige frühere Arbeiten haben beide Modalitäten genutzt, jedoch zeigen sie entweder mangelhafte Ergebnisse oder unterstreichen die Bedeutung anhand eines Datensatzes mit einem spezifischen Bereich. In dieser Arbeit stellen wir den Bi-modalen Transformer vor, der die Transformer-Architektur für eine bimodale Eingabe verallgemeinert. Wir demonstrieren die Effektivität des vorgeschlagenen Modells bei der Nutzung von Audio- und Visualsequenzen für die dichte Video-Beschreibung, wobei das Modul in der Lage ist, jede beliebige Kombination zweier Modalitäten in einer Sequenz-zu-Sequenz-Aufgabe zu verarbeiten. Zudem zeigen wir, dass der vortrainierte bimodale Encoder als Teil des Bi-modalen Transformers als Merkmalsextraktor für ein einfaches Antragsgenerierungsmodul verwendet werden kann. Die Leistungsfähigkeit wird am anspruchsvollen ActivityNet Captions-Datensatz gezeigt, wo unser Modell außergewöhnliche Ergebnisse erzielt. Der Code ist verfügbar: v-iashin.github.io/bmt