EgoThink: Ein Benchmark-Datensatz Zur Visuellen Beantwortung Von Fragen Aus Der Ich-Perspektive
Datum
Größe
Veröffentlichungs-URL

EgoThink ist ein von der Tsinghua-Universität vorgeschlagener Benchmark-Datensatz für visuelle Fragen- und Antwortverfahren aus der Ich-Perspektive.Der Datensatz enthält 700 Bilder, die 6 Kernfunktionen abdecken, die in 12 Dimensionen unterteilt sind. Die Bilder von EgoThink stammen aus den abgetasteten Bildern des Ego4D-Ego-Person-Videodatensatzes. Um die Datenvielfalt zu gewährleisten, werden für jedes Video maximal 2 Bilder abgetastet.
Während des Datensatzerstellungsprozesses wurden nur qualitativ hochwertige Bilder ausgewählt, die das Denken aus der Ich-Perspektive deutlich veranschaulichen. Der Datensatz wird manuell annotiert und enthält in jeder Dimension mindestens 50 detailliert annotierte Frage-Antwort-Fragen. Diese Fragen basieren auf realen Szenen aus mehreren Ich-Perspektiven. EgoThink verfügt über ein breites Anwendungsspektrum, insbesondere bei der Bewertung und Verbesserung der Leistung von VLMs bei Aufgaben aus der Ich-Perspektive, und stellt eine wertvolle Ressource für die zukünftige Forschung im Bereich der verkörperten künstlichen Intelligenz und Robotik dar.