Une Meilleure Base de Ligne pour AVA

Nous présentons une méthode de référence simple pour la localisation d'actions sur le jeu de données AVA. Le modèle s'appuie sur le cadre de détection de boîtes englobantes Faster R-CNN, adapté pour fonctionner avec des caractéristiques spatio-temporelles pures - dans notre cas, produites exclusivement par un modèle I3D pré-entraîné sur Kinetics. Ce modèle obtient un AP moyen de 21,9 % sur l'ensemble de validation d'AVA v2.1, contre 14,5 % pour le meilleur modèle spatio-temporel RGB utilisé dans l'article original AVA (qui était pré-entraîné sur Kinetics et ImageNet), et contre 11,3 % pour la méthode de référence publiquement disponible utilisant un extracteur de caractéristiques d'image ResNet101, également pré-entraîné sur ImageNet. Notre modèle final atteint un mAP de 22,8 % / 21,9 % sur les ensembles de validation et de test, surpassant ainsi toutes les soumissions au défi AVA lors de la conférence CVPR 2018.