HyperAIHyperAI

Command Palette

Search for a command to run...

Akterspezifische Mehrfachetikettierung von Aktionen mit multimodalem Abfrageverfahren

Anindya Mondal Sauradip Nag Joaquin M Prada Xiatian Zhu Anjan Dutta

Zusammenfassung

Bestehende Aktionserkennungsmethoden sind in der Regel schauspieler-spezifisch aufgrund der intrinsischen topologischen und äußeren Unterschiede zwischen den Schauspielern. Dies erfordert eine schauspieler-spezifische Pose-Schätzung (z.B. Menschen vs. Tiere), was zu einer komplizierten Modellgestaltung und hohen Wartungskosten führt. Darüber hinaus konzentrieren sie sich oft nur auf das Lernen der visuellen Modalität und die Einzelklassifikation, während andere verfügbare Informationsquellen (z.B. Text des Klassennamens) und die gleichzeitige Ausführung mehrerer Aktionen vernachlässigt werden. Um diese Einschränkungen zu überwinden, schlagen wir einen neuen Ansatz vor, den wir als "schauspieler-unabhängige multimodale Mehrfachklassifikation von Aktionen" bezeichnen, der eine einheitliche Lösung für verschiedene Arten von Schauspielern, einschließlich Menschen und Tiere, bietet. Wir formulieren zudem ein neues Modell namens Multi-modale Semantische Abfrage-Netzwerk (MSQNet) in einem transformerbasierten Objekterkennungsrahmen (z.B. DETR), das durch die Nutzung visueller und textbasierter Modalitäten gekennzeichnet ist, um die Aktionen besser darzustellen. Die Beseitigung schauspieler-spezifischer Modellgestaltungen ist ein wesentlicher Vorteil, da sie die Notwendigkeit einer Schauspielpose-Schätzung vollständig eliminiert. Ausführliche Experimente an fünf öffentlich zugänglichen Benchmarks zeigen, dass unser MSQNet konsistent die bisherigen Methoden von schauspieler-spezifischen Alternativen bei Aufgaben zur Erkennung von Einzel- und Mehrfachaktionen bei Menschen und Tieren um bis zu 50% übertrifft. Der Quellcode ist unter https://github.com/mondalanindya/MSQNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Akterspezifische Mehrfachetikettierung von Aktionen mit multimodalem Abfrageverfahren | Paper | HyperAI