Command Palette
Search for a command to run...
AOE-Net : Modélisation des interactions d'entités avec un mécanisme d'attention adaptative pour la génération de propositions d'actions temporelles
AOE-Net : Modélisation des interactions d'entités avec un mécanisme d'attention adaptative pour la génération de propositions d'actions temporelles
Khoa Vo Sang Truong Kashu Yamazaki Bhiksha Raj Minh-Triet Tran Ngan Le
Résumé
La génération de propositions d'actions temporelles (TAPG) est une tâche complexe qui nécessite la localisation des intervalles d'action dans une vidéo non coupée. Intuitivement, en tant qu'êtres humains, nous percevons une action à travers les interactions entre les acteurs, les objets pertinents et l'environnement environnant. Malgré les progrès significatifs réalisés dans le domaine de la TAPG, la majorité des méthodes existantes ignorent ce principe du processus perceptif humain en appliquant un réseau de base à une vidéo donnée comme une boîte noire. Dans cet article, nous proposons de modéliser ces interactions avec un réseau de représentation multi-modale, nommément le Réseau d'Interactions Acteurs-Objets-Environnement (AOE-Net). Notre AOE-Net se compose de deux modules, à savoir la représentation multi-modale basée sur la perception (PMR) et le module d'appariement des frontières (BMM). De plus, nous introduisons un mécanisme d'attention adaptative (AAM) dans le PMR pour se concentrer uniquement sur les acteurs principaux (ou objets pertinents) et modéliser leurs relations. Le module PMR représente chaque extrait vidéo par une caractéristique visuelle-linguistique, où les acteurs principaux et l'environnement environnant sont représentés par des informations visuelles, tandis que les objets pertinents sont décrits par des caractéristiques linguistiques via un modèle image-texte. Le module BMM traite la séquence de caractéristiques visuelles-linguistiques en entrée et génère des propositions d'action. Des expériences exhaustives et des études ablatives approfondies sur les jeux de données ActivityNet-1.3 et THUMOS-14 montrent que notre AOE-Net proposé surpassent les méthodes précédentes de pointe avec des performances remarquables et une généralisation pour la TAPG et la détection temporelle d'actions. Pour prouver la robustesse et l'efficacité de l'AOE-Net, nous avons également mené une étude ablatrice sur des vidéos égocentriques, c'est-à-dire sur le jeu de données EPIC-KITCHENS 100. Le code source sera disponible à l'acceptation.Note: "exhaustive" a été traduit par "exhaustives" pour correspondre au pluriel "expériences". "approfondies" a été ajouté pour "extensive ablation studies" afin d'éviter une répétition trop directe et rendre le texte plus fluide."surpasse" a été utilisé au lieu de "outperform" pour varier le vocabulaire tout en conservant le sens.Le terme "pointe" est souvent utilisé en français pour traduire "state-of-the-art".L'expression "à l'acceptation" est utilisée pour traduire "upon acceptance", ce qui est courant dans le contexte académique ou technologique.