Mesh R-CNN

Schnelle Fortschritte im Bereich der 2D-Wahrnehmung haben zu Systemen geführt, die Objekte in realen Bildern genauer erkennen können. Diese Systeme treffen jedoch ihre Vorhersagen in 2D und ignorieren dabei die 3D-Struktur der Welt. Parallel dazu haben Fortschritte bei der Vorhersage von 3D-Formen sich hauptsächlich auf synthetische Benchmarks und isolierte Objekte konzentriert. Wir vereinen die Errungenschaften dieser beiden Bereiche. Wir schlagen ein System vor, das Objekte in realen Bildern erkennt und für jedes erkannte Objekt ein Dreiecksgitter (triangle mesh) erstellt, das dessen vollständige 3D-Form darstellt. Unser System, Mesh R-CNN genannt, erweitert Mask R-CNN um eine Zweigstrecke zur Formvorhersage, die durch die Erstellung grober Voxelrepräsentationen beginnt, diese in Gitter umwandelt und mit einem Graph-Konvolutionnetzwerk über den Knoten und Kanten des Gitters verfeinert. Wir validieren unsere Formvorhersage-Zweigstrecke anhand von ShapeNet, wo wir bei der Vorhersage von Formen aus einzelnen Bildern frühere Arbeiten übertreffen. Anschließend setzen wir unser vollständiges Mesh R-CNN-System auf Pix3D ein, wo wir sowohl Objekterkennung als auch Vorhersage ihrer 3D-Formen durchführen.