17日前

ブロック単位で監督された知識蒸留を用いたニューラルアーキテクチャサーチ

Changlin Li, Jiefeng Peng, Liuchun Yuan, Guangrun Wang, Xiaodan Liang, Liang Lin, Xiaojun Chang
ブロック単位で監督された知識蒸留を用いたニューラルアーキテクチャサーチ
要約

ニューラルアーキテクチャサーチ(NAS)は、機械が自動的にネットワークアーキテクチャを設計することを目的としており、機械学習分野に新たな革命をもたらすことが期待されている。しかし、こうした高い期待とは裏腹に、現在のNAS手法の効果性と効率性については依然として明確でない。一部の最近の研究では、既存の多数のNAS手法がランダムなアーキテクチャ選択とそれほど差がない可能性すら指摘されている。NAS手法の非効率性の原因の一つとして、アーキテクチャ評価の不正確さが挙げられる。具体的には、NASの高速化を図るため、近年の研究では大規模な探索空間内の複数の候補アーキテクチャを、共有ネットワークパラメータを用いて同時に短時間学習(under-training)する手法が提案されている。しかし、このアプローチはアーキテクチャの評価を誤らせる結果となり、NASの効果性をさらに低下させている。本研究では、NASの大規模な探索空間をブロック単位にモジュール化することで、潜在的な候補アーキテクチャが十分に訓練されるようにする。これにより、共有パラメータに起因する表現のずれ(representation shift)を低減し、候補アーキテクチャの正確な評価が可能となる。ブロック単位の探索により、同一ブロック内のすべての候補アーキテクチャを評価することも実現できる。さらに、ネットワークモデルに含まれる知識は、ネットワークパラメータだけでなく、アーキテクチャそのものにも存在することに着目した。したがって、教師モデルからニューラルアーキテクチャ(DNA)の知識を抽出し、それを指導信号として用いてブロック単位のアーキテクチャ探索をガイドする手法を提案する。このアプローチにより、NASの効果性が顕著に向上した。特に注目すべきは、探索されたアーキテクチャの表現力が教師モデルを上回ったことである。これは、本手法の実用性とスケーラビリティの高さを示している。最終的に、本手法はモバイル環境下でImageNetデータセットにおいて78.4%のトップ-1精度を達成し、EfficientNet-B0と比較して約2.1%の性能向上を実現した。本研究で探索されたすべてのモデルおよび評価コードは、オンラインで公開されている。