HyperAIHyperAI

Command Palette

Search for a command to run...

AlphaNet:Alpha散度を用いたスーパーネットの改善された訓練

Dilin Wang Chengyue Gong Meng Li Qiang Liu Vikas Chandra

概要

重み共有型ニューラルアーキテクチャ探索(NAS)は、効率的なニューラルアーキテクチャ設計を自動化する有効な手法である。重み共有型NASは、すべてのアーキテクチャをサブネットワークとして含むスーパーネットを構築し、スーパーネットとサブネットワークを同時に学習する。この手法の成功は、スーパーネットの知識をサブネットワークに効果的に抽出(知識蒸留)することに大きく依存している。しかし本研究では、広く用いられている知識蒸留の損失関数であるKLダイバージェンスが、学生となるサブネットワークが教師となるスーパーネットの不確実性を過剰に評価または過小評価する傾向があることを発見した。その結果、サブネットワークの性能が劣化する要因となることが明らかになった。本研究では、より一般化されたアルファダイバージェンスを用いたスーパーネット学習の改善を提案する。適応的にアルファダイバージェンスを選択することで、教師モデルの不確実性の過剰評価や過小評価を同時に抑制できる。提案手法をスリム可能ニューラルネットワークおよび重み共有型NASの両方に適用し、顕著な性能向上を実証した。特に、本研究で発見したモデル群「AlphaNet」は、BigNAS、Once-for-Allネットワーク、AttentiveNASなど、広範なFLOPs領域において既存の最先端モデルを上回る性能を達成した。FLOPsがわずか444Mの条件下でImageNetのトップ1精度80.0%を達成した。本研究のコードおよび事前学習済みモデルは、https://github.com/facebookresearch/AlphaNet にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています