17日前

Few-shot Learning における Transformer における属性サロゲート学習とスペクトルトークンプール化

Yangji He, Weihan Liang, Dongyang Zhao, Hong-Yu Zhou, Weifeng Ge, Yizhou Yu, Wenqiang Zhang
Few-shot Learning における Transformer における属性サロゲート学習とスペクトルトークンプール化
要約

本稿では、属性サロゲート学習とスペクトルトークンプーリングを活用することで、データ効率を向上させる新しい階層的カスケード型トランスフォーマーを提案する。近年、視覚認識において畳み込みニューラルネットワーク(CNN)の有力な代替手段として、ビジョントランスフォーマー(Vision Transformer, ViT)が注目されている。しかし、十分なデータが存在しない場合、過学習に陥り、性能が著しく低下するという問題がある。データ効率の向上を目的として、本研究ではスペクトルトークンプーリングにより画像の内在構造を活用し、潜在的な属性サロゲートを用いて学習可能なパラメータを最適化する階層的カスケード型トランスフォーマー(HCTransformers)を提案する。内在的な画像構造は、スペクトルトークンプーリングによって前景コンテンツと背景ノイズの曖昧さを低減する役割を果たす。また、属性サロゲート学習スキームは、画像ラベルペアに含まれる豊富な視覚情報(ラベルが単に割り当てた単純な視覚概念にとどまらない)を有効活用することを目的として設計されている。HCTransformersは自己教師学習フレームワークDINOに基づいて構築され、複数の代表的な少データ学習ベンチマークで評価されている。誘導的設定(inductive setting)において、HCTransformersはminiImageNet上で5-way 1-shot精度でDINOベースラインを9.7%、5-way 5-shot精度で9.17%上回り、判別的特徴の効率的な抽出が可能であることを示している。さらに、miniImageNet、tieredImageNet、FC100、CIFAR-FSの4つの代表的なベンチマークデータセットにおいて、5-way 1-shotおよび5-way 5-shot設定の両方で、最先端(SOTA)の少データ分類手法と比較して明確な優位性を示した。本研究で学習した重みとコードは、https://github.com/StomachCold/HCTransformers にて公開されている。