PeCLR: Selbstüberwachte 3D-Handpose-Schätzung aus monokularer RGB-Daten mittels äquivalenter kontrastiver Lernverfahren

Angeregt durch den Erfolg von Contrastive Learning bei Aufgaben der Bildklassifikation stellen wir eine neue selbstüberwachte Methode für die strukturierte Regressionsaufgabe der 3D-Handpose-Schätzung vor. Contrastive Learning nutzt unlabeled Daten zur Darstellungslernung durch eine Verlustfunktion, die darauf abzielt, die gelernten Merkmalsrepräsentationen invariant gegenüber beliebigen Bildtransformationen zu machen. Für die 3D-Handpose-Schätzung ist ebenfalls eine Invarianz gegenüber optischen Transformationen wie Farbstreuung wünschenswert. Gleichzeitig erfordert die Aufgabe jedoch Äquivalenz unter affinen Transformationen, wie Rotationen und Translationen. Um dieses Problem zu lösen, schlagen wir ein äquivalentes Contrastive-Objektiv vor und zeigen dessen Wirksamkeit im Kontext der 3D-Handpose-Schätzung. Wir untersuchen experimentell den Einfluss von invarianz- und äquivalenzbasierten Contrastive-Objektiven und zeigen, dass die Lernung äquivalenter Merkmale zu besseren Darstellungen für die Aufgabe der 3D-Handpose-Schätzung führt. Darüber hinaus zeigen wir, dass standardmäßige ResNets mit ausreichender Tiefe, die auf zusätzlichen unlabeled Daten trainiert werden, eine Verbesserung von bis zu 14,5 % in PA-EPE auf dem FreiHAND-Datensatz erreichen und somit eine state-of-the-art-Leistung erzielen, ohne dass spezifische, task-optimierte Architekturen erforderlich sind. Code und Modelle sind unter https://ait.ethz.ch/projects/2021/PeCLR/ verfügbar.