Transformateur de fusion de caractéristiques anticipatives pour l'anticipation d'actions multi-modales

Bien que l’anticipation des actions humaines soit une tâche intrinsèquement multimodale, les méthodes les plus avancées sur des jeux de données populaires d’anticipation d’actions exploitent ces données en appliquant des méthodes d’ensemble et en moyennant les scores émis par des réseaux d’anticipation unimodaux. Dans ce travail, nous introduisons des techniques de fusion multimodales basées sur les transformateurs, qui intègrent les données multimodales dès une phase précoce. Notre modèle, le Transformer de Fusion de Caractéristiques Anticipatives (AFFT), s’avère supérieur aux approches classiques de fusion de scores et obtient des résultats de pointe, surpassant les méthodes antérieures sur les jeux de données EpicKitchens-100 et EGTEA Gaze+. Ce modèle est facilement extensible et permet d’ajouter de nouvelles modalités sans modifier l’architecture. En conséquence, nous avons extrait des caractéristiques audio sur EpicKitchens-100, que nous intégrons à l’ensemble des caractéristiques couramment utilisées dans la communauté.