EgoThink : Un Ensemble De Données De Référence De Réponses Visuelles À Des Questions À La Première Personne
Date
Taille
URL de publication

EgoThink est un ensemble de données de référence de réponses visuelles à des questions en perspective à la première personne proposé par l'Université Tsinghua.L'ensemble de données contient 700 images couvrant 6 capacités principales réparties en 12 dimensions. Les images d'EgoThink proviennent des images échantillonnées de l'ensemble de données vidéo à la première personne Ego4D. Afin d'assurer la diversité des données, seulement 2 images sont échantillonnées pour chaque vidéo au maximum.
Au cours du processus de construction de l’ensemble de données, seules des images de haute qualité pouvant clairement démontrer la pensée à la première personne ont été sélectionnées. L'ensemble de données est annoté manuellement et contient au moins 50 questions-réponses annotées détaillées dans chaque dimension. Ces questions proviennent de scènes réelles vues à la première personne. EgoThink a une large gamme d'applications, notamment dans l'évaluation et l'amélioration des performances des VLM dans les tâches de perspective à la première personne, fournissant une ressource précieuse pour les futures recherches sur l'intelligence artificielle incarnée et la robotique.