Kooperatives Lernen für die Rekonstruktion von Hand und Objekt mit aufmerksamkeitsgesteuerter Graphenfaltung

Die Schätzung von Haltung und Form von Händen und Objekten bei Interaktionen findet zahlreiche Anwendungen, darunter erweiterte und virtuelle Realität. Bestehende Ansätze zur Rekonstruktion von Händen und Objekten erfordern explizit definierte physikalische Randbedingungen und bekannte Objekte, was ihre Anwendungsbereiche einschränkt. Unser Algorithmus ist unabhängig von Objektmodellen und lernt die physikalischen Regeln, die Hand-Objekt-Interaktionen steuern. Dies erfordert das automatische Inferieren der Formen und der physischen Interaktion von Händen und (potentiell unbekannten) Objekten. Wir gehen diesem anspruchsvollen Problem durch den Vorschlag einer kollaborativen Lernstrategie entgegen, bei der zwei Zweige tiefer neuronaler Netze voneinander lernen. Insbesondere übertragen wir Handgitterinformationen auf den Objektzweig und umgekehrt auf den Handzweig. Das resultierende Optimierungs- (Trainings-) Problem kann instabil sein, und wir adressieren dies durch zwei Strategien: (i) Aufmerksamkeitsgesteuerte Graphkonvolution, die bei der Identifizierung und Fokussierung auf gegenseitige Verdeckungen hilft, sowie (ii) unüberwachte assoziative Verlustfunktion, die den Informationsaustausch zwischen den Zweigen erleichtert. Experimente mit vier weit verbreiteten Benchmarks zeigen, dass unser Framework eine Genauigkeit in der 3D-Haltungsbestimmung über dem aktuellen Stand der Technik erreicht und dichte 3D-Formen von Händen und Objekten rekonstruiert. Jedes technische Element trägt in der Ablationsstudie bedeutend zur Leistung bei.