HyperAIHyperAI

Command Palette

Search for a command to run...

UniFormer : Transformer unifié pour un apprentissage efficace des représentations spatio-temporelles

Yu Qiao Hongsheng Li Yu Liu Guanglu Song Gao Peng Yali Wang Kunchang Li

Résumé

Il s'agit d'une tâche difficile d'apprendre des sémantiques spatio-temporelles riches et multi-échelles à partir de vidéos à haute dimension, en raison de la grande redondance locale et de la dépendance globale complexe entre les trames vidéo. Les avancées récentes dans ce domaine ont été principalement alimentées par les réseaux de neurones convolutifs 3D et les vision transformers. Bien que la convolution 3D puisse efficacement agréger le contexte local pour atténuer la redondance locale à partir d'un petit voisinage 3D, elle manque de capacité à capturer la dépendance globale en raison de son champ réceptif limité. À l'inverse, les vision transformers peuvent efficacement modéliser les dépendances à longue portée grâce à leur mécanisme d'attention auto-attention, tout en étant limités dans la réduction de la redondance locale, en raison de leur comparaison de similarité aveugle entre tous les tokens à chaque couche. À partir de ces observations, nous proposons un nouveau modèle, le Unified transFormer (UniFormer), qui intègre de manière fluide les avantages de la convolution 3D et de l'attention spatio-temporelle auto-attention dans une architecture transformer concise, offrant un équilibre préférentiel entre complexité computationnelle et précision. Contrairement aux transformers traditionnels, notre agrégateur de relations traite à la fois la redondance et la dépendance spatio-temporelles en apprenant respectivement l'affinité locale et globale entre les tokens dans les couches superficielles et profondes. Nous menons des expériences étendues sur des benchmarks vidéo populaires, tels que Kinetics-400, Kinetics-600, et Something-Something V1 & V2. En n'utilisant qu'un pré-entraînement sur ImageNet-1K, notre UniFormer atteint des précisions top-1 de 82,9 % et 84,8 % sur Kinetics-400 et Kinetics-600 respectivement, tout en nécessitant 10 fois moins de GFLOPs que les méthodes de pointe actuelles. Pour Something-Something V1 et V2, UniFormer atteint de nouvelles performances de pointe, avec des précisions top-1 de 60,8 % et 71,4 % respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp