Attention Symbiotique avec Information Privilégiée pour la Reconnaissance d'Actions Égocentriques

La reconnaissance vidéo égocentrique est une plateforme naturelle pour l'analyse de diverses interactions. En raison du vaste vocabulaire d'actions dans les jeux de données vidéo égocentriques, les études récentes utilisent généralement une structure à deux branches pour la reconnaissance d'actions, c'est-à-dire une branche pour la classification des verbes et l'autre pour la classification des noms. Cependant, les corrélations entre les branches de verbes et de noms ont été largement négligées. De plus, ces deux branches ne parviennent pas à exploiter les caractéristiques locales en raison de l'absence d'un mécanisme d'attention sensible à la position.Dans cet article, nous proposons un nouveau cadre d'attention symbiotique utilisant des informations privilégiées (SAP) pour la reconnaissance vidéo égocentrique. Des caractéristiques de détection d'objets plus précises et sensibles à la position peuvent faciliter la compréhension de l'interaction entre l'acteur et l'objet. Nous introduisons ces caractéristiques dans la reconnaissance d'actions et les considérons comme des informations privilégiées. Notre cadre permet une communication mutuelle entre la branche des verbes, la branche des noms et les informations privilégiées.Ce processus de communication non seulement injecte des détails locaux dans les caractéristiques globales mais aussi exploite une guidance implicite sur la position spatio-temporelle d'une action en cours. Nous introduisons une nouvelle attention symbiotique (SA) pour permettre une communication efficace. Elle normalise tout d'abord les caractéristiques guidées par la détection sur une branche afin de mettre en avant les informations pertinentes à l'action provenant de l'autre branche. L'attention symbiotique adapte dynamiquement les interactions entre les trois sources.Pour catalyser davantage cette communication, des relations spatiales sont révélées pour sélectionner les informations les plus pertinentes à l'action. Ce processus identifie les caractéristiques les plus précieuses et discriminantes pour la classification. Nous validons l'efficacité de notre SAP tant quantitativement que qualitativement. Il convient de noter qu'elle atteint le niveau le plus avancé actuellement sur deux grands jeux de données vidéo égocentriques.