17日前

AlphaNet：Alpha散度を用いたスーパーネットの改善された訓練

Dilin Wang, Chengyue Gong, Meng Li, Qiang Liu, Vikas Chandra

要約

重み共有型ニューラルアーキテクチャ探索（NAS）は、効率的なニューラルアーキテクチャ設計を自動化する有効な手法である。重み共有型NASは、すべてのアーキテクチャをサブネットワークとして含むスーパーネットを構築し、スーパーネットとサブネットワークを同時に学習する。この手法の成功は、スーパーネットの知識をサブネットワークに効果的に抽出（知識蒸留）することに大きく依存している。しかし本研究では、広く用いられている知識蒸留の損失関数であるKLダイバージェンスが、学生となるサブネットワークが教師となるスーパーネットの不確実性を過剰に評価または過小評価する傾向があることを発見した。その結果、サブネットワークの性能が劣化する要因となることが明らかになった。本研究では、より一般化されたアルファダイバージェンスを用いたスーパーネット学習の改善を提案する。適応的にアルファダイバージェンスを選択することで、教師モデルの不確実性の過剰評価や過小評価を同時に抑制できる。提案手法をスリム可能ニューラルネットワークおよび重み共有型NASの両方に適用し、顕著な性能向上を実証した。特に、本研究で発見したモデル群「AlphaNet」は、BigNAS、Once-for-Allネットワーク、AttentiveNASなど、広範なFLOPs領域において既存の最先端モデルを上回る性能を達成した。FLOPsがわずか444Mの条件下でImageNetのトップ1精度80.0％を達成した。本研究のコードおよび事前学習済みモデルは、https://github.com/facebookresearch/AlphaNet にて公開されている。