11日前
DyTox:DYnamic TOken eXpansionを用いた継続学習のためのTransformers
Arthur Douillard, Alexandre Ramé, Guillaume Couairon, Matthieu Cord

要約
ディープネットワークアーキテクチャは、過去のタスクを忘れないようにしながら新しいタスクを継続的に学習することが困難である。近年の研究動向では、パラメータの拡張に基づく動的アーキテクチャが、継続的学習における災害的忘却(catastrophic forgetting)を効率的に軽減できることが示されている。しかし、既存の手法はテスト時におけるタスク識別子の必要性、増加するパラメータ数をバランスさせるための複雑なチューニング、およびタスク間での情報共有の不足といった課題を抱えており、タスク数が増えるにつれて大きなオーバーヘッドを伴うため、大規模なタスク数へのスケーラビリティに課題がある。本論文では、専用のエンコーダ/デコーダフレームワークに基づくトランスフォーマー型アーキテクチャを提案する。特に、すべてのタスクに共通してエンコーダとデコーダを共有する点が特徴である。特殊トークンの動的拡張を用いることで、デコーダネットワークの各順伝搬をタスクごとの分布に特化させる。この戦略は、パラメータ拡張を厳密に制御するため、タスク数の増加にもかかわらず、メモリおよび実行時間の増加を極めて小さく抑えられる。さらに、ネットワークの拡張を制御するためのハイパーパラメータチューニングを一切不要とする、高効率なアプローチである。本モデルはCIFAR100において優れた性能を達成し、大規模なImageNet100およびImageNet1000においても最先端の性能を示す一方で、同時期の動的フレームワークと比較してパラメータ数が少ないという利点を有している。