HyperAIHyperAI

Command Palette

Search for a command to run...

VideoBERT: Ein gemeinsames Modell für die Darstellungslernung von Video und Sprache

Chen Sun Austin Myers Carl Vondrick Kevin Murphy Cordelia Schmid

Zusammenfassung

Selbstüberwachtes Lernen (self-supervised learning) hat an Bedeutung gewonnen, um die Fülle von nicht gekennzeichneten Daten auf Plattformen wie YouTube zu nutzen. Während die meisten bestehenden Ansätze niedrigstufige Repräsentationen lernen, schlagen wir ein gemeinsames visuell-linguistisches Modell vor, das hochstufige Merkmale ohne explizite Überwachung erlernt. Insbesondere inspiriert durch den jüngsten Erfolg im Bereich der Sprachmodellierung, bauen wir auf dem BERT-Modell auf, um bidirektionale gemeinsame Verteilungen über Sequenzen von visuellen und linguistischen Token zu erlernen, wobei diese Token jeweils aus der Vektorkuantisierung von Videodaten und Standard-Spracherkennungsoutputs abgeleitet werden. Wir verwenden VideoBERT in verschiedenen Aufgaben, darunter Aktionserkennung und Video-Beschreibungsgenerierung (video captioning). Wir zeigen, dass es direkt für eine Klassifikation mit offenen Vokabularien (open-vocabulary classification) angewendet werden kann, und bestätigen, dass große Mengen an Trainingsdaten und multimodale Informationen entscheidend für die Leistung sind. Darüber hinaus übertreffen wir den aktuellen Stand der Technik bei der Video-Beschreibungsgenerierung, und quantitative Ergebnisse verifizieren, dass das Modell hochstufige semantische Merkmale lernt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp