InternVideo-Ego4D : Un Ensemble de Solutions Championnes aux Défis d'Ego4D

Dans ce rapport, nous présentons nos solutions championnes pour cinq pistes du défi Ego4D. Nous utilisons notre modèle de fond vidéo développé, InternVideo, pour cinq tâches Ego4D, incluant les Requêtes Temporelles (Moment Queries), les Requêtes en Langage Naturel (Natural Language Queries), la Prédiction des Mains Futurs (Future Hand Prediction), la Détection d'Objets avec Changement d'État (State Change Object Detection) et l'Anticipation des Interactions Objets à Court Terme (Short-term Object Interaction Anticipation). InternVideo-Ego4D est une approche efficace permettant d'adapter un modèle de fond puissant aux tâches de compréhension vidéo égocentrique en aval grâce à des architectures simples. Dans ces cinq tâches, les performances d'InternVideo-Ego4D surpassent globalement celles des méthodes de référence et des championnes de CVPR 2022, démontrant ainsi la capacité représentative puissante d'InternVideo en tant que modèle de fond vidéo. Notre code sera rendu disponible sur https://github.com/OpenGVLab/ego4d-eccv2022-solutions.