17日前
豊かな意味構造が少サンプル学習を改善する
Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer, Fahad Shahbaz Khan

要約
人間の学習は、物体の属性についての記述など、豊かな意味情報を含むマルチモーダル入力から恩恵を受ける。このような入力により、非常に限られた視覚的例から一般化可能な概念を学習することが可能となる。一方、現在の少サンプル学習(Few-Shot Learning: FSL)手法は、物体クラスを数値的なクラスラベルで表現しているが、これには学習対象の概念に関する豊かな意味情報が含まれていない。本研究では、最小限のアノテーションコストで取得可能な「クラスレベル」の言語記述を用いることで、FSLの性能向上が可能であることを示す。サポートセットとクエリを提示した状況下で、我々の主なアイデアは、視覚特徴のブロッキング(ボトルネック)を生成するハイブリッドプロトタイプを作成し、訓練中にこのプロトタイプを用いてクラスの言語記述を補助タスクとして生成することである。視覚トークンと意味トークンの間の複雑な関係を表現できるように、Transformerベースの前向き・後向き符号化機構を提案する。クラス記述に関する意味情報をプロトタイプが保持するよう強制することで、視覚特徴に対する正則化が働き、推論時における未知クラスへの一般化性能が向上する。さらに、この戦略は人間の先験(prior)を学習表現に反映させ、モデルが視覚的および意味的コンセプトを忠実に関連付けていることを保証するため、モデルの解釈可能性も向上する。4つのデータセットにおける実験およびアブレーションスタディの結果から、FSLにおいて豊かな意味情報を効果的にモデル化することの有効性が確認された。