HyperAIHyperAI
il y a 11 jours

Le flux RGB est suffisant pour la détection d’actions temporelles

Chenhao Wang, Hongxiang Cai, Yuxin Zou, Yichao Xiong
Le flux RGB est suffisant pour la détection d’actions temporelles
Résumé

Les détecteurs d’actions temporelles de pointe actuels reposent sur une entrée à deux flux, comprenant des trames RGB et un flux optique. Bien que la combinaison des trames RGB et du flux optique améliore significativement les performances, ce dernier constitue une représentation conçue manuellement, qui non seulement exige des calculs intensifs, mais rend également méthodologiquement insatisfaisante l’approche à deux flux, souvent incapable d’être apprise de manière end-to-end conjointement avec le flux optique. Dans ce papier, nous affirmons que le flux optique est superflu dans les détecteurs d’actions temporelles à haute précision, et que la mise en œuvre d’une augmentation de données au niveau de l’image (ILDA, Image Level Data Augmentation) constitue la solution clé pour éviter la dégradation des performances lorsqu’on élimine le flux optique. Pour évaluer l’efficacité de l’ILDA, nous proposons un détecteur d’actions temporelles simple mais efficace, à une seule étape, basé sur un flux unique de trames RGB, nommé DaoTAD. Nos résultats montrent que, entraîné avec ILDA, DaoTAD atteint une précision comparable à celle de tous les détecteurs à deux flux de pointe existants, tout en surpassant largement la vitesse d’inférence des méthodes précédentes, avec une vitesse impressionnante de 6668 fps sur une GeForce GTX 1080 Ti. Le code est disponible à l’adresse suivante : \url{https://github.com/Media-Smart/vedatad}.

Le flux RGB est suffisant pour la détection d’actions temporelles | Articles de recherche récents | HyperAI