Command Palette
Search for a command to run...
NASViT:勾配競合を意識したスーパーネット学習を用いた効率的なVision Transformer向けニューラルアーキテクチャサーチ
NASViT:勾配競合を意識したスーパーネット学習を用いた効率的なVision Transformer向けニューラルアーキテクチャサーチ
Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong
概要
視覚変換器(Vision Transformers: ViTs)の精度と効率性を高める設計は、極めて重要ではあるが困難な課題である。スーパーネットに基づくワンショットニューラルアーキテクチャ探索(NAS)は、高速なアーキテクチャ最適化を可能にし、畳み込みニューラルネットワーク(CNNs)において最先端(SOTA)の性能を達成している。しかし、このスーパーネットベースのNASを直接ViTsに適用すると、単一のViTを訓練する場合よりも劣る性能にとどまり、著しい性能低下が生じる。本研究では、この問題の原因として、勾配の衝突(gradient conflict)が挙げられることを発見した。具体的には、ViTsでは異なるサブネットワークの勾配がスーパーネットの勾配とより強く衝突するため、学習初期段階で飽和が生じ、収束性能が劣化する。この問題を緩和するために、勾配投影アルゴリズム、スイッチ可能レイヤースケーリング設計、および簡素化されたデータ拡張と正則化学習の手法を組み合わせた一連の技術を提案する。これらの手法により、すべてのサブネットワークの収束性と性能が顕著に向上した。本研究で発見されたハイブリッドViTモデル群、NASViTは、ImageNet上で200M~800M FLOPsの範囲でトップ-1精度を78.2%から81.8%まで達成し、AlphaNetやLeViTを含む既存のすべてのCNNおよびViTモデルを上回る性能を実現した。また、セマンティックセグメンテーションタスクへの転移学習においても、CityscapesおよびADE20Kデータセットにおいて、それぞれ5G FLOPsで73.2%および37.9%のmIoUを達成し、従来のバックボーンモデルを上回った。