11日前

事前学習された視覚・言語トランスフォーマーは、少サンプルインクリメンタル学習者である

Keon-Hee Park, Kyungwoo Song, Gyeong-Moon Park
事前学習された視覚・言語トランスフォーマーは、少サンプルインクリメンタル学習者である
要約

少数ショット増分学習(Few-Shot Class Incremental Learning: FSCIL)とは、各クラスに対して少数のサンプルしか与えられない状況下で、新しいクラスを段階的に学習しつつ、過去に学習した知識を忘れないようにするタスクである。FSCILは、災害的忘却(catastrophic forgetting)と過学習(overfitting)という二つの大きな課題に直面しており、これにより従来の研究は主に、ResNet-18のような浅いモデルに依存してきている。確かに、これらのモデルの限られた表現能力は、災害的忘却および過学習の問題を緩和する効果があるが、その一方で、少数ショットの増分学習セッションにおける知識の効果的な転移が不十分になるという欠点がある。本論文では、大規模データセットで事前学習された視覚・言語変換器(vision and language transformers)のような大規模モデルが、少数ショット増分学習において優れた学習者となり得ると主張する。この目的のため、プロンプト関数と知識蒸留を組み合わせた、事前学習済みの視覚・言語変換器を活用する新規FSCILフレームワーク「PriViLege」を提案する。本フレームワークは、新規の事前学習済み知識チューニング(Pre-trained Knowledge Tuning: PKT)と、エントロピーに基づく分散損失、および意味的知識蒸留損失の二つの損失関数を導入することで、大規模モデルにおける災害的忘却と過学習の問題を効果的に解決する。実験結果から、提案手法PriViLegeは既存の最先端手法と比較して大幅に優れた性能を示しており、CUB200では+9.38%、CIFAR-100では+20.58%、miniImageNetでは+13.36%の性能向上が確認された。本研究の実装コードは、https://github.com/KHU-AGI/PriViLege にて公開されている。

事前学習された視覚・言語トランスフォーマーは、少サンプルインクリメンタル学習者である | 最新論文 | HyperAI超神経