17日前

Few-Shot分類における一般化の再考

Markus Hiller, Rongkai Ma, Mehrtash Harandi, Tom Drummond
Few-Shot分類における一般化の再考
要約

単一の画像レベルのアノテーションでは、特に複雑な現実世界のシーンを描いた画像において、その内容のほんの一部しか正確に記述できないことが多くあります。このような状況は、多くの分類タスクにおいては許容される場合もありますが、訓練時とテスト時のクラスセットが著しく異なるような応用においては大きな課題を生じます。本論文では、このような問題の影響を「少サンプル学習(few-shot learning)」の文脈で詳細に検討します。入力画像をパッチに分割し、Vision Transformerを用いて各パッチを符号化することで、画像間の局所領域間に意味的対応関係を確立でき、それぞれのクラスに依存せずに実現可能です。その後、推論時にオンライン最適化を用いて、サポートセットに基づいてタスクに最も情報を提供するパッチ埋め込みを決定し、画像において「何が最も重要か」を視覚的に解釈可能にするという利点も得られます。また、マスク画像モデリングを用いた非教師あり学習の最近の進展を活用することで、細粒度のラベルの欠如を克服し、データのより一般的な統計的構造を学習しつつ、画像レベルのアノテーションによる悪影響(いわゆる「教師信号の崩壊(supervision collapse)」)を回避します。実験結果から、本手法が四つの代表的な少サンプル分類ベンチマークにおいて、5ショットおよび1ショットの設定で、新たなSOTA(最良の結果)を達成することが示されました。