HyperAIHyperAI

Command Palette

Search for a command to run...

X3D : Expansion des architectures pour une reconnaissance vidéo efficace

Christoph Feichtenhofer

Résumé

Cet article présente X3D, une famille de réseaux vidéo efficaces qui étendent progressivement une architecture de classification d’images 2D très légère selon plusieurs axes du réseau — espace, temps, largeur et profondeur. Inspirés par les méthodes de sélection de caractéristiques en apprentissage automatique, nous utilisons une approche simple d’expansion progressive du réseau, qui étend un seul axe à chaque étape, afin d’obtenir un excellent compromis entre précision et complexité. Pour adapter X3D à une complexité cible donnée, nous appliquons une expansion progressive vers l’avant suivie d’une contraction vers l’arrière. X3D atteint des performances de pointe tout en nécessitant 4,8 fois moins d’opérations de multiplication-addition et 5,5 fois moins de paramètres que les travaux antérieurs pour une précision similaire. Notre constat le plus surprenant est que des réseaux à haute résolution spatio-temporelle peuvent obtenir de bons résultats tout en étant extrêmement légers en termes de largeur du réseau et de nombre de paramètres. Nous rapportons une précision compétitive à une efficacité sans précédent sur des benchmarks de classification et de détection vidéo. Le code sera disponible à l’adresse suivante : https://github.com/facebookresearch/SlowFast


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp