D3Former:インクリメンタル学習のためのバイアス補正型デュアル蒸留トランスフォーマー

クラス増分学習(CIL)の設定では、各学習フェーズにおいてクラスのグループがモデルに順次導入される。その目的は、これまでに観測されたすべてのクラスに対して高性能を発揮する統一されたモデルを学習することである。従来の分類設定において視覚変換器(ViT)が急速に普及していることを踏まえ、その継続的学習(continual learning)における挙動を検討するという興味深い課題が浮上している。本研究では、CIL向けに設計されたバイアス除去型二重蒸留変換器、すなわち $\textrm{D}^3\textrm{Former}$ を提案する。本モデルは、ハイブリッドネスト型ViTアーキテクチャを採用することで、小規模および大規模なデータセットに対して高いデータ効率性とスケーラビリティを実現している。近年のViTベースのCIL手法とは異なり、$\textrm{D}^3\textrm{Former}$ は新しいタスクを学習する際にアーキテクチャを動的に拡張せず、多数の増分タスクに対しても適用可能である。$\textrm{D}^3\textrm{Former}$ の向上したCIL性能は、ViTアーキテクチャに対する二つの根本的な改良に起因する。第一に、増分学習を長尾分類問題として捉え、新規クラスの多数のサンプルが、旧クラスに利用可能な限られたエキスパート例に比べて圧倒的に多い状況を想定する。この場合、少数派の旧クラスに対するバイアスを回避するため、旧タスクに関連する表現を保持するよう、動的に出力ロジットを調整する手法を提案する。第二に、タスク間の学習が進むにつれて、空間的アテンションマップの構成を保持する戦略を導入する。これにより、最も判別力の高い領域への注目を維持する制約が課され、災害的忘却(catastrophic forgetting)の低減が可能となる。$\textrm{D}^3\textrm{Former}$ は、CIFAR-100、MNIST、SVHN、ImageNetの増分バージョンにおいて優れた性能を達成した。コードは https://tinyurl.com/d3former で公開されている。