vor einem Monat

VideoBERT: Ein gemeinsames Modell für die Darstellungslernung von Video und Sprache

Chen Sun; Austin Myers; Carl Vondrick; Kevin Murphy; Cordelia Schmid

Abstract

Selbstüberwachtes Lernen (self-supervised learning) hat an Bedeutung gewonnen, um die Fülle von nicht gekennzeichneten Daten auf Plattformen wie YouTube zu nutzen. Während die meisten bestehenden Ansätze niedrigstufige Repräsentationen lernen, schlagen wir ein gemeinsames visuell-linguistisches Modell vor, das hochstufige Merkmale ohne explizite Überwachung erlernt. Insbesondere inspiriert durch den jüngsten Erfolg im Bereich der Sprachmodellierung, bauen wir auf dem BERT-Modell auf, um bidirektionale gemeinsame Verteilungen über Sequenzen von visuellen und linguistischen Token zu erlernen, wobei diese Token jeweils aus der Vektorkuantisierung von Videodaten und Standard-Spracherkennungsoutputs abgeleitet werden. Wir verwenden VideoBERT in verschiedenen Aufgaben, darunter Aktionserkennung und Video-Beschreibungsgenerierung (video captioning). Wir zeigen, dass es direkt für eine Klassifikation mit offenen Vokabularien (open-vocabulary classification) angewendet werden kann, und bestätigen, dass große Mengen an Trainingsdaten und multimodale Informationen entscheidend für die Leistung sind. Darüber hinaus übertreffen wir den aktuellen Stand der Technik bei der Video-Beschreibungsgenerierung, und quantitative Ergebnisse verifizieren, dass das Modell hochstufige semantische Merkmale lernt.