vor 17 Tagen

Egozentrische Video-Sprache-Vortrainierung

Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou

Details der Forschungsarbeit anzeigen

Egozentrische Video-Sprache-Vortrainierung

Abstract

Video-Sprache-Vortrainierung (VLP), die darauf abzielt, übertragbare Darstellungen zu erlernen, um eine Vielzahl von video-textbasierten Aufgaben im Nachbearbeitungsstadium zu verbessern, hat in letzter Zeit zunehmend an Aufmerksamkeit gewonnen. Die leistungsstärksten Ansätze beruhen auf großskaligen, dritten-Perspektive-Datenbanken mit Video-Text-Paaren, wie beispielsweise HowTo100M. In dieser Arbeit nutzen wir die kürzlich veröffentlichte Ego4D-Datenbank, um die egozentrische VLP an drei zentralen Ansätzen voranzutreiben. (i) Wir erstellen EgoClip, eine erste-Perspektive-Datenbank für die Vortrainierung mit 3,8 Millionen Clip-Text-Paaren, die sorgfältig aus Ego4D ausgewählt wurden und eine große Vielfalt an alltäglichen menschlichen Aktivitäten abdecken. (ii) Wir schlagen ein neues Vortrainierungsziel vor, das als EgoNCE bezeichnet wird, das die kontrastive Lernmethode für Video-Text-Paare an die egozentrische Domäne anpasst, indem egozentrisch bewusste positive und negative Beispiele extrahiert werden. (iii) Wir führen EgoMCQ ein, eine Entwicklungsbenchmark, die eng an EgoClip angelehnt ist und somit eine effektive Validierung sowie eine schnelle Exploration unserer Designentscheidungen in EgoClip und EgoNCE ermöglicht. Zudem zeigen wir eine herausragende Leistung auf fünf egozentrischen Nachbearbeitungsaufgaben an drei unterschiedlichen Datensätzen: Video-Text-Recherche auf EPIC-KITCHENS-100; Aktionserkennung auf Charades-Ego; sowie natürlichsprachliche Abfrage, Moment-Abfrage und Klassifikation von Objektzustandsänderungen auf den Ego4D-Challenge-Benchmarks. Die Datenbank und der Quellcode sind unter https://github.com/showlab/EgoVLP verfügbar.