17日前
KNAS:グリーンニューラルアーキテクチャサーチ
Jingjing Xu, Liang Zhao, Junyang Lin, Rundong Gao, Xu Sun, Hongxia Yang

要約
既存の多数のニューラルアーキテクチャ探索(NAS)手法は、アーキテクチャの評価に下流学習(downstream training)を依存しており、膨大な計算量を要する。このような計算が大きな炭素足跡を生むことを踏まえ、本論文では、学習を伴わずアーキテクチャを評価可能なグリーン(環境に配慮した)NAS手法の探索を目的とする。直感的に、アーキテクチャ自体によって誘発される勾配(gradient)は、収束性および汎化性能を直接決定する要因である。この知見をもとに、本研究は「勾配カーネル仮説(gradient kernel hypothesis)」を提唱する。すなわち、勾配を、ランダム初期化されたネットワークの下流学習を粗い粒度で代替する代理指標(proxy)として利用可能であるとする仮説である。この仮説の裏付けとして、理論的解析を実施し、訓練損失や検証性能と良好な相関を持つ実用的な勾配カーネルを同定した。この仮説に基づき、新たなカーネルに基づくアーキテクチャ探索手法KNASを提案する。実験の結果、KNASは画像分類タスクにおいて「学習後に評価する(train-then-test)」手法と比較して、数オーダー高速かつ競争力のある性能を達成した。さらに、極めて低い探索コストにより、広範な応用が可能であることが示された。また、探索されたネットワークは、2つのテキスト分類タスクにおいて、強力なベースラインであるRoBERTA-largeを上回る性能を発揮した。実装コードは以下のURLから公開されている:\url{https://github.com/Jingjing-NLP/KNAS}。