Zur Kalibrierung der menschlichen Pose-Schätzung

Die meisten 2D-Mensch-Pose-Schätzframeworks berechnen die Keypoint-Vertrauenswerte auf ad-hoc-basierte Weise, indem sie Heuristiken wie den maximalen Wert von Heatmaps verwenden. Das Vertrauen ist Teil des Evaluierungsschemas, z.B. AP für den MSCOCO-Datensatz, wurde jedoch bei der Entwicklung von Cutting-edge-Methoden weitgehend vernachlässigt. In dieser Arbeit werden die ersten Schritte unternommen, um die Fehlkalibrierung in der Pose-Schätzung anzugehen. Aus kalibrierungsorientierter Sicht sollte das Vertrauen mit der Pose-Genauigkeit übereinstimmen. In der Praxis sind jedoch bestehende Methoden schlecht kalibriert. Wir zeigen durch theoretische Analyse, warum ein Kalibrierungsunterschied existiert und wie dieser Unterschied verringert werden kann. Die einfache Vorhersage der Instanzgröße und die Anpassung der Vertrauensfunktion führen zu erheblichen Verbesserungen des AP-Werts. Aufgrund der Blackbox-Natur tiefer neuronaler Netze ist es jedoch nicht möglich, diesen Unterschied allein durch geschlossene Formeln vollständig zu schließen. Daher gehen wir einen Schritt weiter und lernen netzwerk-spezifische Anpassungen, indem wir Konsistenz zwischen Vertrauen und Pose-Genauigkeit erzwingen. Unser vorgeschlagenes Calibrated ConfidenceNet (CCNet) ist eine leichte nachgelagerte Ergänzung, die das AP-Wert-Bildergebnis bis zu 1,4 % verbessert, wenn es auf etablierten Pose-Schätzframeworks angewendet wird. Bei der Anwendung auf die nachgelagerte Aufgabe der Gitterwiederherstellung ermöglicht CCNet eine zusätzliche Verringerung des 3D-Keypoint-Fehlers um 1,0 mm.请注意,我已将“Calibrated ConfidenceNet”翻译为“Calibrated ConfidenceNet (CCNet)”,并在括号中标注了原文缩写,以确保信息完整。此外,“黑箱”被翻译为“Blackbox”,这是德语中常用的术语。其他科技/学术术语也尽量使用了通用译法。