il y a 8 mois

Résumé

Les méthodes actuelles de reconnaissance d'actions sont généralement spécifiques à l'acteur en raison des différences topologiques et apparentes intrinsèques entre les différents acteurs. Cela nécessite une estimation de la posture spécifique à l'acteur (par exemple, humains versus animaux), conduisant à une complexité de conception de modèle fastidieuse et à des coûts de maintenance élevés. De plus, elles se concentrent souvent sur l'apprentissage du seul modalité visuelle et sur la classification mono-étiquette, tout en négligeant d'autres sources d'information disponibles (par exemple, le texte du nom de classe) et l'occurrence simultanée de plusieurs actions. Pour surmonter ces limitations, nous proposons une nouvelle approche appelée « reconnaissance d'actions multi-modale multi-étiquette indépendante de l'acteur », qui offre une solution unifiée pour divers types d'acteurs, y compris les humains et les animaux. Nous formulons également un nouveau modèle appelé Réseau de Requêtes Sémantiques Multi-modales (MSQNet) dans un cadre de détection d'objets basé sur les transformers (par exemple, DETR), caractérisé par l'utilisation des modalités visuelle et textuelle pour représenter les classes d'actions de manière plus efficace. L'élimination des conceptions de modèles spécifiques à l'acteur est un avantage majeur, car elle supprime complètement la nécessité d'estimer la posture de l'acteur. Des expériences étendues sur cinq benchmarks publiquement disponibles montrent que notre MSQNet dépasse constamment les méthodes précédentes spécifiques à l'acteur dans les tâches de reconnaissance d'actions mono- et multi-étiquettes chez les humains et les animaux, avec une amélioration pouvant atteindre 50 %. Le code est disponible sur https://github.com/mondalanindya/MSQNet.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Reconnaissance D'action

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Anindya Mondal Sauradip Nag Joaquin M Prada Xiatian Zhu Anjan Dutta

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Reconnaissance D'action

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Anindya Mondal Sauradip Nag Joaquin M Prada Xiatian Zhu Anjan Dutta

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales | Articles | HyperAI

Command Palette

Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales

Anindya Mondal Sauradip Nag Joaquin M Prada Xiatian Zhu Anjan Dutta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales

Anindya Mondal Sauradip Nag Joaquin M Prada Xiatian Zhu Anjan Dutta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance multi-étiquettes d'actions indépendante de l'acteur avec requêtes multimodales

Anindya Mondal Sauradip Nag Joaquin M Prada Xiatian Zhu Anjan Dutta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters