要約
持続的学習(Continual Learning)は、人工ニューラルネットワークにおいて人間の生涯にわたる学習能力を模倣するための研究分野である。近年、多くの研究が進展し、著しい性能向上が達成されているが、その多くは增量型画像認識タスクにおいて画像モダリティに依存しているにとどまっている。本論文では、視覚的および言語的モダリティ情報を効果的に活用し、より効果的な持続的学習を実現するため、新たな有効なフレームワークである「タスク意識型表現を用いたクロスモダリティ交互学習(Cross-modal Alternating Learning with Task-Aware representations, ALTA)」を提案する。ALTAは、画像とテキスト表現の同時学習を活用することで、より効果的な教師信号を提供するクロスモダリティ統合学習機構を導入する。さらに、タスク意識型表現を導入することで、記憶の消去(forgetting)を緩和し、持続的学習能力を強化する。同時に、安定性と可塑性のジレンマに着目し、タスク間の画像-テキストペアをより適切に一致させるために、タスク意識型クロスモダリティ表現を交互に学習する戦略を採用している。広範な実験を、多数の代表的な画像分類ベンチマーク上で実施した結果、本手法が最先端の性能を達成することが示された。併せて、体系的なアブレーション研究および可視化解析により、本手法の有効性と妥当性が裏付けられた。ALTAの実装コードは、URL https://github.com/vijaylee/ALTA にて公開されている。