HyperAIHyperAI
vor 2 Monaten

Permutationsinvariante Relationale Netzwerke für die Mehrpersonen-3D-Pose-Schätzung

Ugrinovic, Nicolas ; Ruiz, Adria ; Agudo, Antonio ; Sanfeliu, Alberto ; Moreno-Noguer, Francesc
Permutationsinvariante Relationale Netzwerke für die Mehrpersonen-3D-Pose-Schätzung
Abstract

Die Wiederherstellung von Mehrpersonen-3D-Posen aus einem einzelnen RGB-Bild ist ein stark schlecht gestelltes Problem aufgrund der inhärenten 2D-3D-Tiefen-Unschärfe, Interpersonenverdeckungen und Körperteilabschnitten. Um diese Herausforderungen zu bewältigen, haben kürzliche Arbeiten vielversprechende Ergebnisse durch gleichzeitiges Schließen für verschiedene Personen gezeigt. Dennoch wird dies in den meisten Fällen nur durch die Berücksichtigung paarweiser Personinteraktionen erreicht, was eine umfassende Szenerendarstellung, die langreichweitige Interaktionen erfassen kann, behindert. Dies wird durch Ansätze angegangen, die alle Personen in der Szene gemeinsam verarbeiten, obwohl sie das Definieren einer Person als Referenz und eine vordefinierte Personenreihenfolge erfordern und dadurch empfindlich gegenüber dieser Wahl sind. In diesem Artikel überwinden wir beide Einschränkungen und schlagen einen Ansatz zur Mehrpersonen-3D-Pose-Schätzung vor, der langreichweitige Interaktionen unabhängig von der Eingabe-Reihenfolge erfasst. Dazu bauen wir ein resisualartiges permutationsinvariantes Netzwerk, das potentiell verdorbene anfängliche 3D-Posen, die von einem fertigen Detektor geschätzt wurden, erfolgreich verfeinert. Die Residuenfunktion wird durch Set-Transformer-Blöcke gelernt, die die Interaktionen zwischen allen anfänglichen Posen modellieren, unabhängig von ihrer Reihenfolge oder Anzahl. Eine gründliche Evaluierung zeigt, dass unser Ansatz in der Lage ist, die Leistung der anfänglich geschätzten 3D-Posen erheblich zu verbessern und dabei Stand-of-the-Art-Ergebnisse auf standardisierten Benchmarks erzielt. Zudem arbeitet das vorgeschlagene Modul rechnerisch effizient und kann als Ergänzung für jeden 3D-Pose-Detektor in Mehrpersonenszenarien eingesetzt werden.

Permutationsinvariante Relationale Netzwerke für die Mehrpersonen-3D-Pose-Schätzung | Neueste Forschungsarbeiten | HyperAI