2ヶ月前

未見の深層アーキテクチャに対するパラメータ予測

Boris Knyazev; Michal Drozdzal; Graham W. Taylor; Adriana Romero-Soriano
未見の深層アーキテクチャに対するパラメータ予測
要約

深層学習は、機械学習パイプラインにおける特徴量の設計を自動化する上で成功を収めてきました。しかし、ニューラルネットワークのパラメータを最適化するアルゴリズムは依然として手動で設計され、計算効率が低いという問題があります。本研究では、他のネットワークの訓練に関する過去の知識を活用して、これらのパラータを直接予測できるかどうかについて検討します。私たちは多様なニューラルアーキテクチャの計算グラフの大規模データセット - DeepNets-1M を導入し、CIFAR-10 と ImageNet 上でのパラメータ予測を探索します。グラフニューラルネットワークの進歩を活用することで、単一の順方向パスで数秒未満(CPU上でも)に高性能なパラメータを予測できるハイパーネットワークを提案します。提案されたモデルは、未見かつ多様なネットワークにおいて驚くほど良い性能を達成しています。例えば、ResNet-50 の全 2400 万のパラメータを 60% の精度で CIFAR-10 上で予測することができます。ImageNet 上では、私たちのいくつかのネットワークのトップ-5 精度が 50% 近くに達しています。本研究および提案したモデルとその結果は、計算効率が高い新しいネットワーク訓練のパラダイムにつながる可能性があります。また、提案したモデルはニューラルアーキテクチャの強力な表現を学習し、それらの分析を可能にします。

未見の深層アーキテクチャに対するパラメータ予測 | 最新論文 | HyperAI超神経