vor 2 Monaten

Harmonisches Merkmalslernen für die interaktive Schätzung von Hand-Objekt-Posen

{Shaoli Huang, Zengsheng Kuang, Huan Yao, Changxing Ding, Zhifeng Lin}

Details der Forschungsarbeit anzeigen View Code

Harmonisches Merkmalslernen für die interaktive Schätzung von Hand-Objekt-Posen

Abstract

Die gemeinsame Schätzung von Hand- und Objektpose aus einer einzigen Bildaufnahme ist äußerst herausfordernd, da bei der Interaktion zwischen Hand und Objekt häufig starke Verdeckung (Occlusion) auftritt. Bisherige Ansätze extrahieren typischerweise zunächst grobe Hand- und Objektmerkmale aus einem einzigen Backbone und verbessern diese anschließend durch gegenseitige Referenzierung mittels Interaktionsmodule. Allerdings ignorieren diese Methoden häufig, dass Hand und Objekt im Prozess der Merkmalslernung konkurrieren, da der Backbone beide als Vordergrund behandelt und sie sich häufig gegenseitig verdecken. In dieser Arbeit präsentieren wir ein neuartiges Harmonious Feature Learning Network (HFL-Net). HFL-Net führt einen neuen Ansatz ein, der die Vorteile von Ein- und Zweistrom-Backbones kombiniert: Es teilt die Parameter der tiefen und hochwertigen konvolutionellen Schichten eines gemeinsamen ResNet-50-Modells für Hand und Objekt, während die mittleren Schichten ungeteilt bleiben. Diese Strategie ermöglicht es den mittleren Schichten, jeweils nur eine der beiden Entitäten – Hand oder Objekt – als Ziel zu extrahieren, wodurch deren Konkurrenz im Merkmalslernprozess vermieden wird. Gleichzeitig zwingen die geteilten hochwertigen Schichten die Merkmale beider Komponenten, harmonisch zu werden, was ihre gegenseitige Merkmalsverstärkung fördert. Insbesondere schlagen wir vor, das Handmerkmal durch Verkettung mit dem Merkmal an derselben Position aus dem Objektstrom zu verbessern. Anschließend wird eine selbst-Attention-Schicht eingesetzt, um das verknüpfte Merkmal tiefgreifend zu fusionieren. Experimentelle Ergebnisse zeigen, dass unser Ansatz konsistent die derzeit besten Methoden auf den gängigen Datensätzen HO3D und Dex-YCB übertrifft. Besonders hervorzuheben ist, dass die Leistung unseres Modells bei der Schätzung der Handpose sogar die von Verfahren übertrifft, die lediglich die Aufgabe der Einzelhand-Pose-Schätzung bearbeiten. Der Quellcode ist unter https://github.com/lzfff12/HFL-Net verfügbar.