Vers une représentation universelle pour la reconnaissance d'actions inconnues

La reconnaissance d'actions inconnues (UAR) vise à identifier de nouvelles catégories d'actions sans exemples d'apprentissage. Alors que les méthodes précédentes se concentraient sur des divisions vues/non-vues au sein d'un même jeu de données, cet article propose une pipeline utilisant une source d'apprentissage à grande échelle pour atteindre une représentation universelle (UR) capable de généraliser à un scénario plus réaliste de reconnaissance d'actions inconnues inter-jeux de données (CD-UAR). Nous abordons tout d'abord le problème de la UAR comme un problème d'apprentissage par instances multiples généralisé (GMIL) et découvrons des « éléments constitutifs » dans le jeu de données ActivityNet à grande échelle en utilisant des noyaux de distribution. Les composants visuels et sémantiques essentiels sont préservés dans un espace partagé afin d'atteindre l'UR qui peut efficacement généraliser à de nouveaux jeux de données. Les exemples UR prédits peuvent être améliorés par une adaptation sémantique simple, puis une action inconnue peut être reconnue directement à l'aide de l'UR lors du test. Sans apprentissage supplémentaire, des expériences étendues montrent des améliorations significatives sur les benchmarks UCF101 et HMDB51.