HyperAIHyperAI

Command Palette

Search for a command to run...

EPIC-Fusion : Liaison temporelle audio-visuelle pour la reconnaissance d'actions égocentriques

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

Résumé

Nous nous concentrons sur la fusion multi-modale pour la reconnaissance d'actions égocentriques et proposons une nouvelle architecture de liaison temporelle multi-modale, c'est-à-dire la combinaison des modalités dans une plage d'offsets temporels. Nous formons cette architecture avec trois modalités : RGB, Flux (Flow) et Audio, et les combinons à l'aide d'une fusion intermédiaire ainsi qu'un échantillonnage temporel épars des représentations fusionnées. Contrairement aux travaux précédents, les modalités sont fusionnées avant l'agrégation temporelle, avec des poids partagés pour les modalités et la fusion au fil du temps. Notre architecture proposée est formée de bout en bout, surpassant les performances des modalités individuelles ainsi que leur fusion tardive.Nous démontrons l'importance de l'audio en vision égocentrique, sur une base par classe, pour identifier les actions ainsi que les objets interactifs. Notre méthode obtient des résultats de pointe sur les ensembles de tests vus et non vus du plus grand ensemble de données égocentrique : EPIC-Kitchens, selon tous les critères utilisant le tableau des meilleurs scores public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp