CLASTER : Clusterisation avec apprentissage par renforcement pour la reconnaissance d’actions zéro-shot

La reconnaissance d’actions en zero-shot consiste à identifier des classes d’actions sans exemple visuel, uniquement à partir d’un embedding sémantique qui relie les classes inconnues aux classes connues. Ce problème peut être vu comme l’apprentissage d’une fonction capable de généraliser efficacement aux instances de classes inconnues tout en préservant une discrimination fine entre les classes. Les réseaux neuronaux sont capables de modéliser des frontières visuelles complexes entre les classes, ce qui explique leur succès en apprentissage supervisé. Toutefois, dans le cadre de l’apprentissage zero-shot, ces frontières de classes hautement spécialisées ne se transmettent pas nécessairement bien des classes connues vers les classes inconnues. Dans cet article, nous proposons une représentation basée sur les centroïdes, qui regroupe à la fois les représentations visuelles et sémantiques, en tenant compte de tous les échantillons d’apprentissage simultanément, permettant ainsi une meilleure généralisation aux instances de classes inconnues. Nous optimisons ce regroupement à l’aide d’un apprentissage par renforcement, que nous montrons être essentiel au bon fonctionnement de notre approche. Nous appelons la méthode proposée CLASTER et observons qu’elle surpasse de manière cohérente l’état de l’art sur toutes les bases de données standards, y compris UCF101, HMDB51 et Olympic Sports, tant dans l’évaluation standard zero-shot que dans le cadre d’apprentissage zero-shot généralisé. En outre, nous démontrons que notre modèle se distingue également dans le domaine des images, surpassant l’état de l’art dans de nombreuses configurations.