HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur de fusion de caractéristiques anticipatives pour l'anticipation d'actions multi-modales

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

Résumé

Bien que l’anticipation des actions humaines soit une tâche intrinsèquement multimodale, les méthodes les plus avancées sur des jeux de données populaires d’anticipation d’actions exploitent ces données en appliquant des méthodes d’ensemble et en moyennant les scores émis par des réseaux d’anticipation unimodaux. Dans ce travail, nous introduisons des techniques de fusion multimodales basées sur les transformateurs, qui intègrent les données multimodales dès une phase précoce. Notre modèle, le Transformer de Fusion de Caractéristiques Anticipatives (AFFT), s’avère supérieur aux approches classiques de fusion de scores et obtient des résultats de pointe, surpassant les méthodes antérieures sur les jeux de données EpicKitchens-100 et EGTEA Gaze+. Ce modèle est facilement extensible et permet d’ajouter de nouvelles modalités sans modifier l’architecture. En conséquence, nous avons extrait des caractéristiques audio sur EpicKitchens-100, que nous intégrons à l’ensemble des caractéristiques couramment utilisées dans la communauté.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp