HyperAIHyperAI

Command Palette

Search for a command to run...

Egozentrische Video-Sprache-Vortrainierung

Zusammenfassung

Video-Sprache-Vortrainierung (VLP), die darauf abzielt, übertragbare Darstellungen zu erlernen, um eine Vielzahl von video-textbasierten Aufgaben im Nachbearbeitungsstadium zu verbessern, hat in letzter Zeit zunehmend an Aufmerksamkeit gewonnen. Die leistungsstärksten Ansätze beruhen auf großskaligen, dritten-Perspektive-Datenbanken mit Video-Text-Paaren, wie beispielsweise HowTo100M. In dieser Arbeit nutzen wir die kürzlich veröffentlichte Ego4D-Datenbank, um die egozentrische VLP an drei zentralen Ansätzen voranzutreiben. (i) Wir erstellen EgoClip, eine erste-Perspektive-Datenbank für die Vortrainierung mit 3,8 Millionen Clip-Text-Paaren, die sorgfältig aus Ego4D ausgewählt wurden und eine große Vielfalt an alltäglichen menschlichen Aktivitäten abdecken. (ii) Wir schlagen ein neues Vortrainierungsziel vor, das als EgoNCE bezeichnet wird, das die kontrastive Lernmethode für Video-Text-Paare an die egozentrische Domäne anpasst, indem egozentrisch bewusste positive und negative Beispiele extrahiert werden. (iii) Wir führen EgoMCQ ein, eine Entwicklungsbenchmark, die eng an EgoClip angelehnt ist und somit eine effektive Validierung sowie eine schnelle Exploration unserer Designentscheidungen in EgoClip und EgoNCE ermöglicht. Zudem zeigen wir eine herausragende Leistung auf fünf egozentrischen Nachbearbeitungsaufgaben an drei unterschiedlichen Datensätzen: Video-Text-Recherche auf EPIC-KITCHENS-100; Aktionserkennung auf Charades-Ego; sowie natürlichsprachliche Abfrage, Moment-Abfrage und Klassifikation von Objektzustandsänderungen auf den Ego4D-Challenge-Benchmarks. Die Datenbank und der Quellcode sind unter https://github.com/showlab/EgoVLP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp