HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer en Transformer

Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang

Résumé

Transformer est une nouvelle architecture de réseaux neuronaux qui encode les données d'entrée en caractéristiques puissantes grâce au mécanisme d'attention. En général, les transformateurs visuels divisent d'abord les images d'entrée en plusieurs patches locaux, puis calculent à la fois leurs représentations et leurs relations. Étant donné que les images naturelles sont complexes, riches en détails et en informations de couleur, la granularité de cette division en patches locaux s'avère insuffisante pour extraire efficacement des caractéristiques d'objets à différentes échelles et positions. Dans cet article, nous soulignons que l'attention à l'intérieur de ces patches locaux est également essentielle pour construire des transformateurs visuels performants, et nous proposons une nouvelle architecture, nommée Transformer iN Transformer (TNT). Plus précisément, nous considérons les patches locaux (par exemple, de taille 16×16) comme des « phrases visuelles », et les divisons davantage en patches plus petits (par exemple, 4×4) afin de former des « mots visuels ». L'attention de chaque mot est calculée par rapport aux autres mots au sein de la même phrase visuelle, avec un coût computationnel négligeable. Les caractéristiques des mots et des phrases sont ensuite agrégées pour renforcer la capacité de représentation. Des expériences sur plusieurs benchmarks démontrent l'efficacité de l'architecture TNT proposée : par exemple, nous atteignons une précision top-1 de 81,5 % sur ImageNet, soit environ 1,7 % de plus que celle du meilleur transformateur visuel actuel, pour un coût computationnel similaire. Le code PyTorch est disponible à l'adresse https://github.com/huawei-noah/CV-Backbones, et le code MindSpore est accessible à l'adresse https://gitee.com/mindspore/models/tree/master/research/cv/TNT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp