il y a 6 mois

Résumé

Bien que l’anticipation des actions humaines soit une tâche intrinsèquement multimodale, les méthodes les plus avancées sur des jeux de données populaires d’anticipation d’actions exploitent ces données en appliquant des méthodes d’ensemble et en moyennant les scores émis par des réseaux d’anticipation unimodaux. Dans ce travail, nous introduisons des techniques de fusion multimodales basées sur les transformateurs, qui intègrent les données multimodales dès une phase précoce. Notre modèle, le Transformer de Fusion de Caractéristiques Anticipatives (AFFT), s’avère supérieur aux approches classiques de fusion de scores et obtient des résultats de pointe, surpassant les méthodes antérieures sur les jeux de données EpicKitchens-100 et EGTEA Gaze+. Ce modèle est facilement extensible et permet d’ajouter de nouvelles modalités sans modifier l’architecture. En conséquence, nous avons extrait des caractéristiques audio sur EpicKitchens-100, que nous intégrons à l’ensemble des caractéristiques couramment utilisées dans la communauté.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Multimodal

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Multimodal

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Transformateur de fusion de caractéristiques anticipatives pour l'anticipation d'actions multi-modales | Articles | HyperAI

Command Palette

Transformateur de fusion de caractéristiques anticipatives pour l'anticipation d'actions multi-modales

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur de fusion de caractéristiques anticipatives pour l'anticipation d'actions multi-modales

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur de fusion de caractéristiques anticipatives pour l'anticipation d'actions multi-modales

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters