Ansichten und Schlüsselpunkte

Wir beschreiben das Problem der Pose-Schätzung für starre Objekte durch die Bestimmung des Betrachterwinkels, um eine grobe Pose zu erklären, und durch die Vorhersage von Schlüsselpunkten, um die feineren Details zu erfassen. Beide Aufgaben behandeln wir in zwei unterschiedlichen Szenarien: dem eingeschränkten Szenario mit bekannten Begrenzungsboxen und dem anspruchsvolleren Detektionsszenario, bei dem das Ziel darin besteht, Objekte gleichzeitig zu erkennen und ihre Pose korrekt zu schätzen. Wir stellen Architekturen auf Basis von Faltungsneuronalen Netzen (Convolutional Neural Networks) für diese Aufgaben vor und zeigen, dass die Nutzung von Betrachterwinkel-Schätzungen die Schlüsselpunkt-Vorhersagen basierend auf lokalem Erscheinungsbild erheblich verbessern kann. Neben den erzielten erheblichen Verbesserungen im Vergleich zum Stand der Technik analysieren wir die Fehlermodi und den Einfluss von Objektmerkmalen auf die Leistung, um zukünftige Bemühungen in Richtung dieses Ziels zu leiten.