Objektpose-Schätzung mithilfe von mittleren visuellen Darstellungen

Diese Arbeit stellt ein neuartiges Pose-Schätzungsmodell für Objekt-Kategorien vor, das effektiv auf bisher nicht gesehene Umgebungen übertragen werden kann. Deep-Convolutional-Netzwerke (CNN) für die Pose-Schätzung werden typischerweise auf Datensätzen trainiert und evaluiert, die speziell für Objekterkennung, Pose-Schätzung oder 3D-Rekonstruktion zusammengestellt wurden, was einen großen Aufwand an Trainingsdaten erfordert. In dieser Arbeit wird ein Modell zur Pose-Schätzung vorgestellt, das mit geringem Datenaufwand trainiert werden kann und auf allgemeinen, mittleren Representationsleveln basiert \cite{taskonomy2018} (z. B. Schätzung der Oberflächennormalen und Re-Shading). Diese Representations werden auf einem großen Datensatz ohne die Notwendigkeit von Pose- oder Objektannotierungen trainiert. Anschließend werden die Vorhersagen mit einem kleinen CNN-Netzwerk verfeinert, das Objektmasken und die Rekonstruktion von Silhouetten nutzt. Die vorgestellte Methode erreicht eine überlegene Leistung auf dem Pix3D-Datensatz \cite{pix3d} und zeigt bei nur 25 % des Trainingsdatensatzes eine Verbesserung um fast 35 % gegenüber bestehenden Modellen. Wir zeigen, dass das Verfahren besonders vorteilhaft ist, wenn es um Generalisierung und Übertragbarkeit auf neue Umgebungen geht. Dazu führen wir einen neuen Benchmark zur Pose-Schätzung für häufig vorkommende Möbelkategorien auf dem anspruchsvollen Active Vision Dataset \cite{Ammirato2017ADF} ein und evaluieren die auf dem Pix3D-Datensatz trainierten Modelle.