EPIC-Fusion : Liaison temporelle audio-visuelle pour la reconnaissance d'actions égocentriques

Nous nous concentrons sur la fusion multi-modale pour la reconnaissance d'actions égocentriques et proposons une nouvelle architecture de liaison temporelle multi-modale, c'est-à-dire la combinaison des modalités dans une plage d'offsets temporels. Nous formons cette architecture avec trois modalités : RGB, Flux (Flow) et Audio, et les combinons à l'aide d'une fusion intermédiaire ainsi qu'un échantillonnage temporel épars des représentations fusionnées. Contrairement aux travaux précédents, les modalités sont fusionnées avant l'agrégation temporelle, avec des poids partagés pour les modalités et la fusion au fil du temps. Notre architecture proposée est formée de bout en bout, surpassant les performances des modalités individuelles ainsi que leur fusion tardive.Nous démontrons l'importance de l'audio en vision égocentrique, sur une base par classe, pour identifier les actions ainsi que les objets interactifs. Notre méthode obtient des résultats de pointe sur les ensembles de tests vus et non vus du plus grand ensemble de données égocentrique : EPIC-Kitchens, selon tous les critères utilisant le tableau des meilleurs scores public.