HyperAIHyperAI
il y a 2 mois

Une Meilleure Base de Ligne pour AVA

Rohit Girdhar; João Carreira; Carl Doersch; Andrew Zisserman
Une Meilleure Base de Ligne pour AVA
Résumé

Nous présentons une méthode de référence simple pour la localisation d'actions sur le jeu de données AVA. Le modèle s'appuie sur le cadre de détection de boîtes englobantes Faster R-CNN, adapté pour fonctionner avec des caractéristiques spatio-temporelles pures - dans notre cas, produites exclusivement par un modèle I3D pré-entraîné sur Kinetics. Ce modèle obtient un AP moyen de 21,9 % sur l'ensemble de validation d'AVA v2.1, contre 14,5 % pour le meilleur modèle spatio-temporel RGB utilisé dans l'article original AVA (qui était pré-entraîné sur Kinetics et ImageNet), et contre 11,3 % pour la méthode de référence publiquement disponible utilisant un extracteur de caractéristiques d'image ResNet101, également pré-entraîné sur ImageNet. Notre modèle final atteint un mAP de 22,8 % / 21,9 % sur les ensembles de validation et de test, surpassant ainsi toutes les soumissions au défi AVA lors de la conférence CVPR 2018.