Réinterroger la reconnaissance d’actions en zero-shot : apprendre à partir d’actions atomiques latentes

Afin d’éviter le cycle fastidieux d’annotation et de re-entraînement dans l’application des modèles de reconnaissance d’actions supervisés, la reconnaissance d’actions zéro-shot (ZSAR) est devenue un domaine en plein essor. La ZSAR exige que les modèles reconnaissent des actions n’ayant jamais été présentes dans les données d’entraînement, en établissant un pont entre les caractéristiques visuelles et les représentations sémantiques. Toutefois, en raison de la complexité intrinsèque des actions, il reste difficile de transférer efficacement les connaissances apprises sur des actions sources vers des domaines cibles. Les méthodes précédentes de ZSAR se concentrent principalement sur la réduction de la variance de représentation entre actions sources et cibles, en intégrant ou en appliquant de nouvelles caractéristiques au niveau de l’action. Toutefois, ces caractéristiques au niveau de l’action sont grossières et rendent le pont appris (un-à-un) vulnérable face à des actions cibles similaires. Par ailleurs, l’intégration ou l’application de telles caractéristiques nécessite souvent des calculs supplémentaires ou des annotations, ce qui augmente la charge computationnelle. Ces approches n’ont pas pris en compte le fait que deux actions ayant des noms différents peuvent toutefois partager les mêmes composants fondamentaux d’actions atomiques. Cette observation permet aux humains de comprendre rapidement une action inédite à partir d’un ensemble d’actions atomiques apprises à partir d’actions vues. Inspirés par ce phénomène, nous proposons JigsawNet, un réseau qui reconnaît des actions complexes en les décomposant de manière non supervisée en combinaisons d’actions atomiques, tout en établissant des relations groupe à groupe entre les caractéristiques visuelles et les représentations sémantiques. Pour renforcer la robustesse du pont groupe à groupe appris, nous introduisons un module de stimulation de groupe (Group Excitation, GE), qui modélise les connaissances intra-échantillon, ainsi qu’une perte de cohérence (Consistency Loss), qui pousse le modèle à tirer parti des connaissances inter-échantillons. Notre JigsawNet atteint des performances de pointe sur trois benchmarks et dépasse nettement les méthodes précédentes.