HyperAIHyperAI

Command Palette

Search for a command to run...

Poseidon: Eine ViT-basierte Architektur für die Mehrfachbild-Pose-Schätzung mit adaptiver Bildgewichtung und mehrskaliger Merkmalsfusion

Cesare Davide Pace* Alessandro Marco De Nunzio Claudio De Stefano Francesco Fontanella Mario Molinara

Zusammenfassung

Die Schätzung der menschlichen Haltung ist eine wichtige Aufgabe im Bereich der Computer Vision und beinhaltet die Detektion und Lokalisierung von menschlichen Gelenken in Bildern und Videos. Obwohl die Schätzung der Haltung in einzelnen Bildern erhebliche Fortschritte gemacht hat, scheitert sie oft daran, die zeitlichen Dynamiken zu erfassen, die für das Verständnis komplexer, kontinuierlicher Bewegungen notwendig sind. Wir schlagen Poseidon vor, eine innovative Mehrbild-Schätzarchitektur, die das ViTPose-Modell durch die Integration von zeitlichen Informationen zur Verbesserung der Genauigkeit und Robustheit erweitert, um diese Einschränkungen zu überwinden. Poseidon führt wichtige Innovationen ein:(1) einen adaptiven Bildgewichtungsmechanismus (Adaptive Frame Weighting, AFW), der Frames dynamisch nach ihrer Relevanz priorisiert und sicherstellt, dass das Modell sich auf die informativsten Daten konzentriert;(2) ein Modul zur Mehrskalen-Feature-Fusion (Multi-Scale Feature Fusion, MSFF), das Merkmale aus verschiedenen Backbone-Layern aggregiert, um sowohl feine Details als auch hochwertige Semantik zu erfassen; und(3) ein Cross-Attention-Modul zur effektiven Informationsaustausch zwischen zentralen und kontextuellen Frames, was die zeitliche Kohärenz des Modells verbessert. Die vorgeschlagene Architektur steigert die Leistung bei komplexen Video-Szenarien und bietet Skalierbarkeit sowie rechnerische Effizienz für praktische Anwendungen. Unser Ansatz erreicht den aktuellen Stand der Technik auf den Datensätzen PoseTrack21 und PoseTrack18 mit mAP-Werten von 88,3 und 87,8 jeweils und übertrifft dabei bestehende Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Poseidon: Eine ViT-basierte Architektur für die Mehrfachbild-Pose-Schätzung mit adaptiver Bildgewichtung und mehrskaliger Merkmalsfusion | Paper | HyperAI