Tout sur les graphes de connaissances pour les actions

Les systèmes actuels de reconnaissance d’actions nécessitent de grandes quantités de données d’entraînement pour identifier correctement une action. Des travaux récents ont exploré le paradigme de l’apprentissage zéro-shot et peu-shot afin d’apprendre des classificateurs pour des catégories non vues ou peu étiquetées. Inspirés de paradigmes similaires en reconnaissance d’objets, ces approches exploitent des sources externes de connaissance (par exemple, des graphes de connaissances issus de domaines linguistiques). Toutefois, contrairement aux objets, il n’est pas clair quelle est la meilleure représentation de connaissance pour les actions. Dans ce papier, nous visons à mieux comprendre les graphes de connaissances (KG) pouvant être exploités pour la reconnaissance d’actions zéro-shot et peu-shot. Plus précisément, nous étudions trois mécanismes différents de construction de graphes de connaissances : les embeddings d’actions, les embeddings action-objet, et les embeddings visuels. Nous présentons une analyse approfondie de l’impact de différents graphes de connaissances dans diverses configurations expérimentales. Enfin, afin de faciliter une étude systématique des approches zéro-shot et peu-shot, nous proposons un nouveau paradigme d’évaluation amélioré basé sur les jeux de données UCF101, HMDB51 et Charades, permettant une transfert de connaissance à partir de modèles entraînés sur Kinetics.