HyperAIHyperAI
il y a 17 jours

Transformer en Transformer

Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu, Yunhe Wang
Transformer en Transformer
Résumé

Transformer est une nouvelle architecture de réseaux neuronaux qui encode les données d'entrée en caractéristiques puissantes grâce au mécanisme d'attention. En général, les transformateurs visuels divisent d'abord les images d'entrée en plusieurs patches locaux, puis calculent à la fois leurs représentations et leurs relations. Étant donné que les images naturelles sont complexes, riches en détails et en informations de couleur, la granularité de cette division en patches locaux s'avère insuffisante pour extraire efficacement des caractéristiques d'objets à différentes échelles et positions. Dans cet article, nous soulignons que l'attention à l'intérieur de ces patches locaux est également essentielle pour construire des transformateurs visuels performants, et nous proposons une nouvelle architecture, nommée Transformer iN Transformer (TNT). Plus précisément, nous considérons les patches locaux (par exemple, de taille 16×16) comme des « phrases visuelles », et les divisons davantage en patches plus petits (par exemple, 4×4) afin de former des « mots visuels ». L'attention de chaque mot est calculée par rapport aux autres mots au sein de la même phrase visuelle, avec un coût computationnel négligeable. Les caractéristiques des mots et des phrases sont ensuite agrégées pour renforcer la capacité de représentation. Des expériences sur plusieurs benchmarks démontrent l'efficacité de l'architecture TNT proposée : par exemple, nous atteignons une précision top-1 de 81,5 % sur ImageNet, soit environ 1,7 % de plus que celle du meilleur transformateur visuel actuel, pour un coût computationnel similaire. Le code PyTorch est disponible à l'adresse https://github.com/huawei-noah/CV-Backbones, et le code MindSpore est accessible à l'adresse https://gitee.com/mindspore/models/tree/master/research/cv/TNT.

Transformer en Transformer | Articles de recherche récents | HyperAI