HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation temporelle tardive dans les architectures 3D CNN avec BERT pour la reconnaissance d'actions

M. Esat Kalfaoglu Sinan Kalkan A. Aydin Alatan

Résumé

Dans ce travail, nous combinons la convolution 3D avec une modélisation temporelle tardive pour la reconnaissance d’actions. À cette fin, nous remplaçons la couche classique de pooling moyen global temporel (TGAP) située à la fin de l’architecture de convolution 3D par une couche d’encodage bidirectionnel à base de Transformers (BERT), afin d’exploiter de manière plus efficace les informations temporelles grâce au mécanisme d’attention de BERT. Nous démontrons que ce remplacement améliore les performances de nombreuses architectures populaires de convolution 3D pour la reconnaissance d’actions, notamment ResNeXt, I3D, SlowFast et R(2+1)D. En outre, nous obtenons des résultats état-de-l’art sur les deux jeux de données HMDB51 et UCF101, avec une précision top-1 de 85,10 % et 98,69 % respectivement. Le code source est mis à disposition publiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modélisation temporelle tardive dans les architectures 3D CNN avec BERT pour la reconnaissance d'actions | Articles | HyperAI