HyperAIHyperAI
il y a 3 mois

Apprentissage webly supervisé omnifonctionnel pour la reconnaissance vidéo

Haodong Duan, Yue Zhao, Yuanjun Xiong, Wentao Liu, Dahua Lin
Apprentissage webly supervisé omnifonctionnel pour la reconnaissance vidéo
Résumé

Nous introduisons OmniSource, un cadre novateur visant à exploiter les données issues du web pour entraîner des modèles de reconnaissance vidéo. OmniSource surmonte les barrières entre différents formats de données, tels que les images, les courts extraits vidéo et les vidéos longues non segmentées, dans le cadre de l’apprentissage supervisé par le web. Tout d’abord, des échantillons de données multi-formats, collectés spécifiquement pour la tâche et filtrés automatiquement par un modèle enseignant, sont transformés en une forme unifiée. Ensuite, une stratégie d’entraînement conjoint est proposée pour traiter les écarts de domaine entre plusieurs sources et formats de données dans l’apprentissage webly-supervisé. Plusieurs bonnes pratiques, notamment l’équilibrage des données, le rééchantillonnage et le mixup à travers les jeux de données, sont intégrées dans l’entraînement conjoint. Les expérimentations montrent qu’en exploitant des données provenant de multiples sources et formats, OmniSource permet une meilleure efficacité en matière de données pendant l’entraînement. Avec seulement 3,5 millions d’images et 800 000 minutes de vidéos récupérées sur Internet sans étiquetage humain (moins de 2 % des données utilisées dans les travaux antérieurs), nos modèles entraînés avec OmniSource améliorent respectivement de 3,0 % et 3,9 % la précision Top-1 des modèles de base 2D- et 3D-ConvNet sur le benchmark Kinetics-400. Grâce à OmniSource, nous établissons de nouveaux records avec différentes stratégies de pré-entraînement pour la reconnaissance vidéo. Nos meilleurs modèles atteignent des précisions Top-1 de 80,4 %, 80,5 % et 83,6 % sur le benchmark Kinetics-400, respectivement, pour l’entraînement à partir de zéro, le pré-entraînement sur ImageNet et le pré-entraînement sur IG-65M.