MobilePose: Echtzeit-Gestenerkennung für unbekannte Objekte mit schwacher Formüberwachung

In diesem Paper behandeln wir das Problem der Erkennung bisher nicht gesehener Objekte anhand von RGB-Bildern sowie der Schätzung ihrer 3D-Pose. Wir stellen zwei mobilfreundliche Netzwerke vor: MobilePose-Base und MobilePose-Shape. Letzteres wird eingesetzt, wenn Formsupervision verfügbar ist – selbst wenn diese nur schwach ist – während MobilePose-Base für den Fall ohne Formsupervision vorgesehen ist. Wir überprüfen erneut die in früheren Methoden verwendeten Formmerkmale, darunter Segmentierung und Koordinatenkarten. Wir erklären, unter welchen Bedingungen und warum eine pixelgenaue Formsupervision die Schätzung der Pose verbessern kann. Aufgrund dieser Erkenntnisse integrieren wir die Vorhersage der Form als Zwischenschicht in MobilePose-Shape und ermöglichen es dem Netzwerk, die Pose aus der Form abzuleiten. Unsere Modelle werden auf einer Kombination aus realen und synthetischen Daten trainiert, wobei eine schwache und verrauschte Formsupervision verwendet wird. Die Modelle sind extrem leichtgewichtig und ermöglichen eine Echtzeit-Verarbeitung auf modernen Mobilgeräten (z. B. 36 FPS auf dem Galaxy S20). Im Vergleich zu vorherigen Ein-Schritt-Lösungen erreicht unsere Methode eine höhere Genauigkeit, während das Modell deutlich kleiner ist (2–3 % in Modellgröße oder Anzahl der Parameter).