4ヶ月前

ProjectionNet: ニューラル投影を使用した効率的なデバイス上深層ネットワークの学習

Sujith Ravi
ProjectionNet: ニューラル投影を使用した効率的なデバイス上深層ネットワークの学習
要約

深層ニューラルネットワークは、視覚認識や言語理解に関連するアプリケーションにおいて広く使用されるようになりました。しかし、一般的なニューラルネットワークを携帯電話やスマートウォッチなどのデバイスで使用することは、モデルのサイズが大きく、これらのデバイスに搭載されている限られたメモリに収まらないため、しばしば困難です。これらのデバイスは、CPUやGPUを備えた高性能データセンターで実行される機械学習モデルを利用できますが、多くのアプリケーションではこれが現実的ではありません。なぜなら、データはプライバシーに敏感であり、推論は直接「デバイス上」で行われる必要があるからです。本稿では、コンパクトなニューラルネットワークの訓練に使用する新しいアーキテクチャを提案します。その中心には、2種類の異なるネットワークを使用して共同で訓練を行う新しい目的関数があります。これは、既存のアーキテクチャ(フィードフォワードNNやLSTM RNNなど)を使用した完全なトレーナー・ニューラルネットワークと、ランダム投影を利用して入力または中間表現をビットに変換するより単純な「射影」ネットワークを組み合わせています。単純なネットワークは、低メモリ消費量で軽量かつ効率的な計算操作をビット空間で符号化します。2つのネットワークはバックプロパゲーションを使用して共同で訓練され、「射影」ネットワークは完全なネットワークから学習し、徒弟制学習に似た方法で知識を獲得します。訓練が完了すると、小さなネットワークは低メモリおよび低計算コストで直接推論に使用することができます。我々はこの新しい手法が視覚認識やテキスト分類タスクにおいて高い精度を維持しながら大幅にメモリ要件を縮小することを示しています。また、「特定のタスクを解決するために必要なニューラルビット数は何であるか?」という問いについても新フレームワークを使用して研究し、いくつかのデータセットにおけるモデルの予測能力(ビット数)と精度との経験的な対比結果を示しています。