17日前

2022年のVision Transformers:Tiny ImageNetに関する最新動向

Ethan Huynh
2022年のVision Transformers:Tiny ImageNetに関する最新動向
要約

近年の画像変換器(image transformers)の進展により、従来のCNNアーキテクチャとの間にあった性能差は大幅に縮小され、驚くべき成果が得られている。一般的な訓練手順は、ImageNet-21kなどの大規模データセットで事前学習を行い、その後ImageNet-1kで微調整(fine-tuning)を行うことである。微調整を経た後、研究者たちはCIFAR-10/100といった小規模データセットにおける転移学習性能を検証することが多いが、Tiny ImageNetについてはあまり注目されてこなかった。本論文では、ビジョン変換器のTiny ImageNetにおける最新の性能を報告する。対象となるモデルには、Vision Transformer(ViT)、Data Efficient Image Transformer(DeiT)、Class Attention in Image Transformer(CaiT)、およびSwin Transformerが含まれる。特に、Swin Transformerは91.35%の検証精度を達成し、現在の最先端(state-of-the-art)性能を上回っている。コードは以下のGitHubリポジトリで公開されている:https://github.com/ehuynh1106/TinyImageNet-Transformers

2022年のVision Transformers:Tiny ImageNetに関する最新動向 | 最新論文 | HyperAI超神経