EgoVideo : Exploration du modèle fondamental égocentrique et de son adaptation en aval

Dans ce rapport, nous présentons nos solutions aux défis EgoVis du CVPR 2024, comprenant cinq pistes du défi Ego4D et trois pistes du défi EPIC-Kitchens. En nous appuyant sur le modèle à deux tours vidéo-langage et en exploitant nos données vidéo égocentriques soigneusement organisées, nous introduisons un nouveau modèle fondamental appelé EgoVideo. Ce modèle est spécifiquement conçu pour répondre aux caractéristiques uniques des vidéos égocentriques et fournit un soutien solide à nos soumissions de concours. Dans les défis Ego4D, nous abordons diverses tâches telles que les Requêtes en Langue Naturelle, l'Ancrage de Pas, les Requêtes Temporelles, l'Anticipation d'Interactions Objets à Court Terme et l'Anticipation d'Actions à Long Terme. De plus, nous participons également au défi EPIC-Kitchens, où nous engageons dans les pistes de Reconnaissance d'Actions, de Récupération Multi-Instances et d'Adaptation de Domaine pour la Reconnaissance d'Actions. En adaptant EgoVideo à ces tâches variées, nous mettons en évidence sa polyvalence et son efficacité dans différents scénarios d'analyse de vidéos égocentriques, démontrant ainsi la puissante capacité de représentation d'EgoVideo en tant que modèle fondamental égocentrique. Notre base de code et nos modèles pré-entraînés sont disponibles publiquement sur https://github.com/OpenGVLab/EgoVideo.