EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation EgoVideo: Die Erforschung egozentrischer Grundlagenmodelle und deren Anpassung an nachgelagerte Aufgaben

In diesem Bericht präsentieren wir unsere Lösungen für die EgoVis-Challenges im CVPR 2024, einschließlich fünf Tracks im Ego4D-Challenge und drei Tracks im EPIC-Kitchens-Challenge. Aufbauend auf dem Video-Sprache-Zweiturmodell und unter Verwendung unserer sorgfältig organisierten egozentrischen Videodaten führen wir ein neues Grundmodell namens EgoVideo ein. Dieses Modell ist speziell darauf ausgelegt, den einzigartigen Charakteristiken egozentrischer Videos gerecht zu werden und bietet starke Unterstützung für unsere Wettbewerbsbeiträge. Im Ego4D-Challenge bearbeiten wir verschiedene Aufgaben, darunter Natürliche Sprachanfragen, Schrittverankerung (Step Grounding), Momentanfragen, Kurzfristige Objektinteraktionsvorhersage und Langfristige Aktionsvorhersage. Zudem nehmen wir am EPIC-Kitchens-Challenge teil, wo wir uns mit den Tracks Aktionserkennung, Mehrfachinstanz-Retrieval und Domänenanpassung für Aktionserkennung befassen. Durch die Anpassung von EgoVideo an diese vielfältigen Aufgaben zeigen wir seine Vielseitigkeit und Effektivität in verschiedenen Szenarien der Analyse egozentrischer Videos. Dies demonstriert die leistungsfähige Darstellungsfähigkeit von EgoVideo als einem egozentrischen Grundmodell. Unser Codebasis und unsere vortrainierten Modelle sind öffentlich verfügbar unter https://github.com/OpenGVLab/EgoVideo.