8ヶ月前

概要

視覚変換器（Vision Transformers: ViTs）の精度と効率性を高める設計は、極めて重要ではあるが困難な課題である。スーパーネットに基づくワンショットニューラルアーキテクチャ探索（NAS）は、高速なアーキテクチャ最適化を可能にし、畳み込みニューラルネットワーク（CNNs）において最先端（SOTA）の性能を達成している。しかし、このスーパーネットベースのNASを直接ViTsに適用すると、単一のViTを訓練する場合よりも劣る性能にとどまり、著しい性能低下が生じる。本研究では、この問題の原因として、勾配の衝突（gradient conflict）が挙げられることを発見した。具体的には、ViTsでは異なるサブネットワークの勾配がスーパーネットの勾配とより強く衝突するため、学習初期段階で飽和が生じ、収束性能が劣化する。この問題を緩和するために、勾配投影アルゴリズム、スイッチ可能レイヤースケーリング設計、および簡素化されたデータ拡張と正則化学習の手法を組み合わせた一連の技術を提案する。これらの手法により、すべてのサブネットワークの収束性と性能が顕著に向上した。本研究で発見されたハイブリッドViTモデル群、NASViTは、ImageNet上で200M～800M FLOPsの範囲でトップ-1精度を78.2%から81.8%まで達成し、AlphaNetやLeViTを含む既存のすべてのCNNおよびViTモデルを上回る性能を実現した。また、セマンティックセグメンテーションタスクへの転移学習においても、CityscapesおよびADE20Kデータセットにおいて、それぞれ5G FLOPsで73.2%および37.9%のmIoUを達成し、従来のバックボーンモデルを上回った。

ソースPDF コードを表示