HyperAIHyperAI
il y a 2 mois

Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales

Mondal, Anindya ; Nag, Sauradip ; Prada, Joaquin M ; Zhu, Xiatian ; Dutta, Anjan
Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales
Résumé

Les méthodes actuelles de reconnaissance d'actions sont généralement spécifiques à l'acteur en raison des différences topologiques et apparentes intrinsèques entre les différents acteurs. Cela nécessite une estimation de la posture spécifique à l'acteur (par exemple, humains versus animaux), conduisant à une complexité de conception de modèle fastidieuse et à des coûts de maintenance élevés. De plus, elles se concentrent souvent sur l'apprentissage du seul modalité visuelle et sur la classification mono-étiquette, tout en négligeant d'autres sources d'information disponibles (par exemple, le texte du nom de classe) et l'occurrence simultanée de plusieurs actions. Pour surmonter ces limitations, nous proposons une nouvelle approche appelée « reconnaissance d'actions multi-modale multi-étiquette indépendante de l'acteur », qui offre une solution unifiée pour divers types d'acteurs, y compris les humains et les animaux. Nous formulons également un nouveau modèle appelé Réseau de Requêtes Sémantiques Multi-modales (MSQNet) dans un cadre de détection d'objets basé sur les transformers (par exemple, DETR), caractérisé par l'utilisation des modalités visuelle et textuelle pour représenter les classes d'actions de manière plus efficace. L'élimination des conceptions de modèles spécifiques à l'acteur est un avantage majeur, car elle supprime complètement la nécessité d'estimer la posture de l'acteur. Des expériences étendues sur cinq benchmarks publiquement disponibles montrent que notre MSQNet dépasse constamment les méthodes précédentes spécifiques à l'acteur dans les tâches de reconnaissance d'actions mono- et multi-étiquettes chez les humains et les animaux, avec une amélioration pouvant atteindre 50 %. Le code est disponible sur https://github.com/mondalanindya/MSQNet.

Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales | Articles de recherche récents | HyperAI