3ヶ月前
TResNet:高性能GPU専用アーキテクチャ
Tal Ridnik, Hussam Lawen, Asaf Noy, Emanuel Ben Baruch, Gilad Sharir, Itamar Friedman

要約
近年開発された多くの深層学習モデルは、FLOPs(浮動小数点演算回数)を少なくあるいは同等に抑えながら、ResNet50を上回るImageNet精度を達成している。しかし、FLOPsはネットワーク効率の指標としてしばしば用いられる一方で、実際のGPU上での学習および推論スループットを測定すると、従来のResNet50は最近の競合モデルと比べて著しく高速であり、精度とスループットのトレードオフにおいて優れた性能を発揮する。本研究では、精度を向上させつつもGPU上での学習および推論効率を維持するためのアーキテクチャ改変のシリーズを提案する。まず、FLOPs最適化によって引き起こされるボトルネックを実証的に示し、その原因を議論する。次に、GPUの構造およびリソースをより効果的に活用する代替設計を提案する。最終的に、GPUに特化した新たなConvNetモデル群であるTResNetを導入し、従来のConvNetと比較して高い精度と効率を実現した。ResNet50と同等のGPUスループットを持つTResNetモデルを用いることで、ImageNetにおけるトップ1精度は80.8%に達した。また、TResNetモデルは転移学習においても優れた性能を発揮し、スタンフォード・カーズ(96.0%)、CIFAR-10(99.0%)、CIFAR-100(91.5%)、Oxford-Flowers(99.1%)といった代表的な単ラベル分類データセットにおいて、最先端の精度を達成した。さらに、多ラベル分類および物体検出タスクにおいても良好な性能を示した。実装コードは以下のGitHubリポジトリで公開されている:https://github.com/mrT23/TResNet。