HyperAIHyperAI
vor 2 Monaten

InternVideo-Ego4D: Eine Reihe von Champion-Lösungen für Ego4D-Herausforderungen

Chen, Guo ; Xing, Sen ; Chen, Zhe ; Wang, Yi ; Li, Kunchang ; Li, Yizhuo ; Liu, Yi ; Wang, Jiahao ; Zheng, Yin-Dong ; Huang, Bingkun ; Zhao, Zhiyu ; Pan, Junting ; Huang, Yifei ; Wang, Zun ; Yu, Jiashuo ; He, Yinan ; Zhang, Hongjie ; Lu, Tong ; Wang, Yali ; Wang, Limin ; Qiao, Yu
InternVideo-Ego4D: Eine Reihe von Champion-Lösungen für Ego4D-Herausforderungen
Abstract

In diesem Bericht präsentieren wir unsere Sieglösungen für fünf Tracks des Ego4D-Challenges. Wir nutzen unser entwickeltes InternVideo, ein Video-Grundmodell, für fünf Ego4D-Aufgaben, darunter Moment Queries, Natural Language Queries (Natürlichsprachabfragen), Future Hand Prediction (Zukünftige Handbewegungsvorhersage), State Change Object Detection (Erkennung von Objekten mit Zustandsänderungen) und Short-term Object Interaction Anticipation (Kurzfristige Vorhersage von Objektinteraktionen). InternVideo-Ego4D ist ein effektives Paradigma, um das starke Grundmodell durch einfache Kopfdesigns auf die nachgelagerten Aufgaben der egozentrischen Videoverarbeitung anzupassen. In diesen fünf Aufgaben übertrifft die Leistung von InternVideo-Ego4D umfassend die Basismethoden und die Sieger von CVPR2022, was die leistungsstarke Repräsentationsfähigkeit von InternVideo als Video-Grundmodell unterstreicht. Unser Code wird veröffentlicht unter https://github.com/OpenGVLab/ego4d-eccv2022-solutions.

InternVideo-Ego4D: Eine Reihe von Champion-Lösungen für Ego4D-Herausforderungen | Neueste Forschungsarbeiten | HyperAI