ImageNetにおけるニューラルアーキテクチャサーチ:4 GPU時間で実現する理論的にインスパイアされたアプローチ

ニューラルアーキテクチャサーチ(NAS)は、高性能なニューラルネットワークの自動発見を実現するため、急速に研究が進展している。しかし、従来の手法はスーパーネットの大量トレーニングやアーキテクチャの高密度評価を必要とし、計算リソースの消費が著しく、またトレーニングの途中打ち切りや近似による探索バイアスが生じる問題を抱えている。では、トレーニングを一切行わずに最適なニューラルアーキテクチャを選定し、探索コストの大幅な削減を実現することは可能だろうか?本研究では、その問いに肯定的な答えを提示する。提案する新しいフレームワーク「トレーニングフリー・ニューラルアーキテクチャサーチ(TE-NAS)」は、ニューラル接線カーネル(NTK)のスペクトルと入力空間における線形領域の数を分析することで、アーキテクチャを順位付けする。これらの指標は、最近の深層ネットワークに関する理論的進展に基づいており、トレーニングやラベル情報なしに計算可能である。本研究では以下の点を示す:(1)これらの2つの指標は、ネットワークのトレーニング可能性和表現力(expressivity)を示唆する;(2)それらはネットワークのテスト精度と強く相関している。さらに、探索過程におけるトレーニング可能性和表現力の間の柔軟かつ優れたトレードオフを実現するため、プルーニングベースのNAS機構を設計した。NAS-Bench-201およびDARTSの探索空間において、TE-NASは高品質な探索を実現しつつ、CIFAR-10では1台の1080Tiでわずか0.5 GPU時間、ImageNetでは4 GPU時間という極めて低いリソース消費で完了した。本研究が、深層ネットワークの理論的知見と実用的なNAS応用の橋渡しを促進する新たな試みを鼓舞することを期待している。コードは以下のURLから公開されている:https://github.com/VITA-Group/TENAS。