11日前

マルチプライズ・ロトケチ仮説:ランダムに重み付けされたネットワークの剪定により、正確なバイナリーニューラルネットワークを発見する

James Diffenderfer, Bhavya Kailkhura
マルチプライズ・ロトケチ仮説:ランダムに重み付けされたネットワークの剪定により、正確なバイナリーニューラルネットワークを発見する
要約

最近、Frankle および Carbin(2019)は、ランダムに初期化された密接なネットワーク(dense network)の中に、発見された後に訓練することで、学習済みの密接ネットワークと同等のテスト精度に達する部分ネットワーク(サブネットワーク)が存在することを示した。しかし、こうした高性能なトレーナブルなサブネットワークを特定するには、重みの訓練とプルーニングを繰り返すコストの高いプロセスが必要となる。本論文では、より強い「マルチプライズ・ロットリーチケット仮説(Multi-Prize Lottery Ticket Hypothesis)」を提唱し、その正当性を証明する。すなわち、十分に過パラメータ化されたランダム重みを持つニューラルネットワークは、以下の3つの「賞」(prize)を同時に満たす複数のサブネットワーク(「勝利チケット」)を含んでいる:(a)学習済み重みを持つ密接ネットワークと同等の精度を持つ(賞1);(b)追加の訓練を一切行わずに賞1の精度を達成できる(賞2);(c)極端な量子化(例えば、バイナリ重みおよび/または活性化)に対してもロバストである(賞3)。この仮説により、重みの更新を行わずに、ランダム初期化された高精度なフルプレシジョンネットワークをプルーニングおよび量子化するだけで、コンパクトかつ高精度なバイナリニューラルネットワークを学習するための新しいアプローチが可能となる。さらに、マルチプライズチケット(MPTs)を探索するためのアルゴリズムを提案し、CIFAR-10およびImageNetデータセット上で一連の実験を実施した。実験結果から、モデルが深くかつ広がるにつれて、MPTsはその大幅に大きな学習済みフルプレシジョンネットワークと比べて、同程度、あるいは場合によってはさらに高いテスト精度に到達することが明らかになった。重み値の更新を一切行わずに、我々のMPTs-1/32は、CIFAR-10で94.8%、ImageNetで74.03%という、バイナリ重みネットワークにおける新しいSOTA(最優秀)のTop-1精度を達成した。さらに、それぞれのフルプレシジョン対応モデルを1.78%および0.76%上回る性能を発揮した。また、MPT-1/1はCIFAR-10におけるバイナリニューラルネットワークのSOTA Top-1精度(91.9%)を達成した。コードおよび事前学習済みモデルは以下のURLで公開されている:https://github.com/chrundle/biprop。

マルチプライズ・ロトケチ仮説:ランダムに重み付けされたネットワークの剪定により、正確なバイナリーニューラルネットワークを発見する | 最新論文 | HyperAI超神経