1ヶ月前
ハイパーネットワークを用いた継続学習
Johannes von Oswald; Christian Henning; Benjamin F. Grewe; João Sacramento

要約
人工ニューラルネットワークは、複数のタスクを順次学習する際に災害的な忘却(catastrophic forgetting)に苦しむ。この問題を克服するために、我々はタスク条件付きハイパーネットワーク(task-conditioned hypernetworks)に基づく新しいアプローチを提案する。すなわち、これらのネットワークはタスクの識別情報に基づいて目標モデルの重みを生成する。継続的学習(Continual Learning, CL)において、このクラスのモデルが困難を軽減できる理由は単純な特徴にある:これまでに見たすべてのデータの入力-出力関係を再現する代わりに、タスク条件付きハイパーネットワークはタスク固有の重み実現のみを再現すればよい。これにより、単純な正則化項を使用してメモリに保持することが可能となる。標準的なCLベンチマークでの最先端の性能を達成するだけでなく、長期間のタスクシーケンスに関する追加実験では、タスク条件付きハイパーネットワークが非常に大きな過去の記憶保持能力を持つことが示された。特に、訓練可能なハイパーネットワークの重み数が目標ネットワークのサイズと同等かそれ以下の圧縮状態で、このような長い記憶寿命が達成されている点に注目すべきである。低次元タスク埋め込み空間(ハイパーネットワークの入力空間)の構造について洞察を与えつつ、タスク条件付きハイパーネットワークが転移学習(transfer learning)を行うことを示す。最後に、CIFAR-10/100画像データセットに基づく挑戦的なCLベンチマークにおける経験的結果により、前向き情報転送(forward information transfer)がさらに支持されていることを示す。