Objectron: Ein großes Datenset aus objektzentrierten Videos aus der realen Welt mit Pose-Anmerkungen

Die 3D-Objekterkennung ist aufgrund zahlreicher Anwendungen in der Robotik, der erweiterten Realität, der Autonomie und der Bildretrieval-Forschung in letzter Zeit zunehmend populär geworden. Wir stellen den Objectron-Datensatz vor, um den Stand der Technik in der 3D-Objekterkennung voranzutreiben und neue Forschungsrichtungen sowie Anwendungen wie die 3D-Objektverfolgung, die Ansichtssynthese und verbesserte Darstellungen dreidimensionaler Formen zu fördern. Der Datensatz enthält objektorientierte Kurzvideos mit Pose-Anmerkungen für neun Kategorien und umfasst insgesamt 4 Millionen annotierte Bilder in 14.819 annotierten Videos. Zudem schlagen wir ein neues Evaluationsmaß, das 3D-Intersection-over-Union (3D IoU), für die 3D-Objekterkennung vor. Wir demonstrieren die Nützlichkeit unseres Datensatzes für Aufgaben der 3D-Objekterkennung, indem wir Basismodelle vorstellen, die auf diesem Datensatz trainiert wurden. Der Datensatz sowie der Quellcode zur Evaluation sind online unter http://www.objectron.dev verfügbar.