HyperAIHyperAI

Command Palette

Search for a command to run...

FAIT : Modélisation temporelle par attention croisée cadre-action pour une segmentation d'actions efficace

Ehsan Elhamifar Zijia Lu

Résumé

Nous étudions la segmentation d’actions supervisée, dont l’objectif est de prédire les étiquettes d’actions par trame dans une vidéo. Pour capturer les dépendances temporelles sur de longues périodes, les travaux antérieurs améliorent soit les caractéristiques par trame à l’aide de transformateurs, soit les prédictions par trame en s’appuyant sur des caractéristiques d’actions apprises. Toutefois, ces approches sont coûteuses en termes de calcul et négligent le fait que les caractéristiques par trame et celles d’action contiennent des informations complémentaires pouvant être exploitées pour renforcer les deux types de caractéristiques et améliorer le modèle temporel. Ainsi, nous proposons un cadre efficace de modélisation temporelle appelé FACT (Frame-Action Cross-attention Temporal modeling), qui effectue la modélisation temporelle en parallèle sur les caractéristiques par trame et celles d’action, et exploite cette parallélisation pour permettre un transfert itératif d’informations bidirectionnel entre les deux types de caractéristiques afin de les affiner. Le réseau FACT comporte (i) une branche trame, qui apprend les informations au niveau de la trame à l’aide de convolutions et de caractéristiques par trame ; (ii) une branche action, qui modélise les dépendances au niveau de l’action à l’aide de transformateurs et de tokens d’action ; et (iii) des mécanismes d’attention croisée permettant la communication entre les deux branches. Nous proposons également une nouvelle fonction de perte de correspondance afin de garantir qu’un token d’action encode de manière unique un segment d’action, améliorant ainsi la capture de son sémantique. Grâce à notre architecture, nous pouvons également exploiter les transcriptions textuelles des vidéos pour aider à la segmentation d’actions. Nous évaluons FACT sur quatre jeux de données vidéo (deux en perspective subjective et deux en perspective objective) pour la segmentation d’actions, avec et sans transcriptions, montrant qu’il améliore significativement la précision de l’état de l’art tout en étant plus efficace en termes de coût computationnel (trois fois plus rapide) que les méthodes basées sur les transformateurs existantes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp