HyperAIHyperAI
vor 2 Monaten

Poseidon: Eine ViT-basierte Architektur für die Mehrfachbild-Pose-Schätzung mit adaptiver Bildgewichtung und mehrskaliger Merkmalsfusion

Pace, Cesare Davide ; De Nunzio, Alessandro Marco ; De Stefano, Claudio ; Fontanella, Francesco ; Molinara, Mario
Poseidon: Eine ViT-basierte Architektur für die Mehrfachbild-Pose-Schätzung mit adaptiver Bildgewichtung und mehrskaliger Merkmalsfusion
Abstract

Die Schätzung der menschlichen Haltung ist eine wichtige Aufgabe im Bereich der Computer Vision und beinhaltet die Detektion und Lokalisierung von menschlichen Gelenken in Bildern und Videos. Obwohl die Schätzung der Haltung in einzelnen Bildern erhebliche Fortschritte gemacht hat, scheitert sie oft daran, die zeitlichen Dynamiken zu erfassen, die für das Verständnis komplexer, kontinuierlicher Bewegungen notwendig sind. Wir schlagen Poseidon vor, eine innovative Mehrbild-Schätzarchitektur, die das ViTPose-Modell durch die Integration von zeitlichen Informationen zur Verbesserung der Genauigkeit und Robustheit erweitert, um diese Einschränkungen zu überwinden. Poseidon führt wichtige Innovationen ein:(1) einen adaptiven Bildgewichtungsmechanismus (Adaptive Frame Weighting, AFW), der Frames dynamisch nach ihrer Relevanz priorisiert und sicherstellt, dass das Modell sich auf die informativsten Daten konzentriert;(2) ein Modul zur Mehrskalen-Feature-Fusion (Multi-Scale Feature Fusion, MSFF), das Merkmale aus verschiedenen Backbone-Layern aggregiert, um sowohl feine Details als auch hochwertige Semantik zu erfassen; und(3) ein Cross-Attention-Modul zur effektiven Informationsaustausch zwischen zentralen und kontextuellen Frames, was die zeitliche Kohärenz des Modells verbessert. Die vorgeschlagene Architektur steigert die Leistung bei komplexen Video-Szenarien und bietet Skalierbarkeit sowie rechnerische Effizienz für praktische Anwendungen. Unser Ansatz erreicht den aktuellen Stand der Technik auf den Datensätzen PoseTrack21 und PoseTrack18 mit mAP-Werten von 88,3 und 87,8 jeweils und übertrifft dabei bestehende Methoden.

Poseidon: Eine ViT-basierte Architektur für die Mehrfachbild-Pose-Schätzung mit adaptiver Bildgewichtung und mehrskaliger Merkmalsfusion | Neueste Forschungsarbeiten | HyperAI