HyperAIHyperAI

Command Palette

Search for a command to run...

Le flux RGB est suffisant pour la détection d’actions temporelles

Chenhao Wang Hongxiang Cai Yuxin Zou Yichao Xiong

Résumé

Les détecteurs d’actions temporelles de pointe actuels reposent sur une entrée à deux flux, comprenant des trames RGB et un flux optique. Bien que la combinaison des trames RGB et du flux optique améliore significativement les performances, ce dernier constitue une représentation conçue manuellement, qui non seulement exige des calculs intensifs, mais rend également méthodologiquement insatisfaisante l’approche à deux flux, souvent incapable d’être apprise de manière end-to-end conjointement avec le flux optique. Dans ce papier, nous affirmons que le flux optique est superflu dans les détecteurs d’actions temporelles à haute précision, et que la mise en œuvre d’une augmentation de données au niveau de l’image (ILDA, Image Level Data Augmentation) constitue la solution clé pour éviter la dégradation des performances lorsqu’on élimine le flux optique. Pour évaluer l’efficacité de l’ILDA, nous proposons un détecteur d’actions temporelles simple mais efficace, à une seule étape, basé sur un flux unique de trames RGB, nommé DaoTAD. Nos résultats montrent que, entraîné avec ILDA, DaoTAD atteint une précision comparable à celle de tous les détecteurs à deux flux de pointe existants, tout en surpassant largement la vitesse d’inférence des méthodes précédentes, avec une vitesse impressionnante de 6668 fps sur une GeForce GTX 1080 Ti. Le code est disponible à l’adresse suivante : \url{https://github.com/Media-Smart/vedatad}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Le flux RGB est suffisant pour la détection d’actions temporelles | Articles | HyperAI