Omni3D: Eine große Benchmark und Modell für die 3D-Objekterkennung in der Wildbahn

Die Erkennung von Szenen und Objekten in 3D aus einem einzelnen Bild ist ein langjähriges Ziel der Computer Vision mit Anwendungen in Robotik und AR/VR (Augmented Reality/Virtual Reality). Für die 2D-Erkennung haben große Datensätze und skalierbare Lösungen zu bisher unerreichten Fortschritten geführt. Im 3D-Bereich sind jedoch die vorhandenen Benchmarks klein im Umfang, und die Ansätze spezialisieren sich auf wenige Objektkategorien und bestimmte Domänen, wie zum Beispiel städtische Fahrzeugszenen. Angeregt durch den Erfolg der 2D-Erkennung, untersuchen wir die Aufgabe der 3D-Objekterkennung neu, indem wir einen großen Benchmark namens Omni3D einführen. Omni3D nutzt und kombiniert bestehende Datensätze neu, was in 234.000 Bilder mündet, die mit mehr als 3 Millionen Instanzen und 98 Kategorien annotiert sind. Die 3D-Erkennung auf dieser Skala ist herausfordernd aufgrund von Variationen in den internen Kameraparametern und der reichen Vielfalt an Szene- und Objekttypen. Wir schlagen ein Modell vor, das Cube R-CNN genannt wird, das darauf ausgelegt ist, über verschiedene Kameras und Szenearten hinweg zu generalisieren, indem es einen einheitlichen Ansatz verfolgt. Wir zeigen, dass Cube R-CNN bei größeren Benchmarks wie Omni3D sowie bei bestehenden Benchmarks bessere Ergebnisse erzielt als frühere Arbeiten. Schließlich beweisen wir, dass Omni3D ein leistungsfähiger Datensatz für die 3D-Objekterkennung ist, indem wir demonstrieren, dass er die Leistung auf einzelnen Datensätzen verbessert und das Lernen auf neuen kleineren Datensätzen durch Vortraining beschleunigen kann.