HyperAIHyperAI
vor 2 Monaten

Akterspezifische Mehrfachetikettierung von Aktionen mit multimodalem Abfrageverfahren

Mondal, Anindya ; Nag, Sauradip ; Prada, Joaquin M ; Zhu, Xiatian ; Dutta, Anjan
Akterspezifische Mehrfachetikettierung von Aktionen mit multimodalem Abfrageverfahren
Abstract

Bestehende Aktionserkennungsmethoden sind in der Regel schauspieler-spezifisch aufgrund der intrinsischen topologischen und äußeren Unterschiede zwischen den Schauspielern. Dies erfordert eine schauspieler-spezifische Pose-Schätzung (z.B. Menschen vs. Tiere), was zu einer komplizierten Modellgestaltung und hohen Wartungskosten führt. Darüber hinaus konzentrieren sie sich oft nur auf das Lernen der visuellen Modalität und die Einzelklassifikation, während andere verfügbare Informationsquellen (z.B. Text des Klassennamens) und die gleichzeitige Ausführung mehrerer Aktionen vernachlässigt werden. Um diese Einschränkungen zu überwinden, schlagen wir einen neuen Ansatz vor, den wir als "schauspieler-unabhängige multimodale Mehrfachklassifikation von Aktionen" bezeichnen, der eine einheitliche Lösung für verschiedene Arten von Schauspielern, einschließlich Menschen und Tiere, bietet. Wir formulieren zudem ein neues Modell namens Multi-modale Semantische Abfrage-Netzwerk (MSQNet) in einem transformerbasierten Objekterkennungsrahmen (z.B. DETR), das durch die Nutzung visueller und textbasierter Modalitäten gekennzeichnet ist, um die Aktionen besser darzustellen. Die Beseitigung schauspieler-spezifischer Modellgestaltungen ist ein wesentlicher Vorteil, da sie die Notwendigkeit einer Schauspielpose-Schätzung vollständig eliminiert. Ausführliche Experimente an fünf öffentlich zugänglichen Benchmarks zeigen, dass unser MSQNet konsistent die bisherigen Methoden von schauspieler-spezifischen Alternativen bei Aufgaben zur Erkennung von Einzel- und Mehrfachaktionen bei Menschen und Tieren um bis zu 50% übertrifft. Der Quellcode ist unter https://github.com/mondalanindya/MSQNet verfügbar.

Akterspezifische Mehrfachetikettierung von Aktionen mit multimodalem Abfrageverfahren | Neueste Forschungsarbeiten | HyperAI