HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales

Anindya Mondal Sauradip Nag Joaquin M Prada Xiatian Zhu Anjan Dutta

Résumé

Les méthodes actuelles de reconnaissance d'actions sont généralement spécifiques à l'acteur en raison des différences topologiques et apparentes intrinsèques entre les différents acteurs. Cela nécessite une estimation de la posture spécifique à l'acteur (par exemple, humains versus animaux), conduisant à une complexité de conception de modèle fastidieuse et à des coûts de maintenance élevés. De plus, elles se concentrent souvent sur l'apprentissage du seul modalité visuelle et sur la classification mono-étiquette, tout en négligeant d'autres sources d'information disponibles (par exemple, le texte du nom de classe) et l'occurrence simultanée de plusieurs actions. Pour surmonter ces limitations, nous proposons une nouvelle approche appelée « reconnaissance d'actions multi-modale multi-étiquette indépendante de l'acteur », qui offre une solution unifiée pour divers types d'acteurs, y compris les humains et les animaux. Nous formulons également un nouveau modèle appelé Réseau de Requêtes Sémantiques Multi-modales (MSQNet) dans un cadre de détection d'objets basé sur les transformers (par exemple, DETR), caractérisé par l'utilisation des modalités visuelle et textuelle pour représenter les classes d'actions de manière plus efficace. L'élimination des conceptions de modèles spécifiques à l'acteur est un avantage majeur, car elle supprime complètement la nécessité d'estimer la posture de l'acteur. Des expériences étendues sur cinq benchmarks publiquement disponibles montrent que notre MSQNet dépasse constamment les méthodes précédentes spécifiques à l'acteur dans les tâches de reconnaissance d'actions mono- et multi-étiquettes chez les humains et les animaux, avec une amélioration pouvant atteindre 50 %. Le code est disponible sur https://github.com/mondalanindya/MSQNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales | Articles | HyperAI