Meta R-CNN:インスタンスレベル少サンプル学習のための汎用ソルバーへ向けて

人間の急速な学習能力に類似する少サンプル学習(few-shot learning)は、少数のサンプルで学習することで、視覚システムが新しい概念を理解する能力を付与する。従来の主流アプローチは、単一の視覚的オブジェクトを含む画像に基づくメタラーニングに依拠している。しかし、画像内に複雑な背景や複数のオブジェクトが混在する場合、これらの手法は少サンプルオブジェクト検出/セグメンテーションの研究を困難にしている。本研究では、これらのタスクを達成するための柔軟かつ汎用的なアプローチを提示する。我々の手法は、フル画像特徴ではなく、RoI(Region-of-Interest)特徴上でメタラーニングを実施する点に着目し、Faster / Mask R-CNNを拡張する。このシンプルなアプローチにより、背景と混在した多オブジェクト情報が明確に分離され、追加的な複雑な構造を必要とせずに、Faster / Mask R-CNNをメタラーナーに変換することが可能となる。具体的には、Faster / Mask R-CNNと主なバックボーンを共有する予測ヘッド再設計ネットワーク(Predictor-head Remodeling Network, PRN)を導入する。PRNは、少数のサンプルオブジェクトとそのバウンディングボックスまたはマスクを含む画像を入力として、それらのクラスに応じた注目ベクトル(class attentive vectors)を推定する。これらのベクトルは、RoI特徴に対してチャネルごとのソフトアテンションを適用し、R-CNNの予測ヘッドを再設計することで、ベクトルが表すクラスと整合するオブジェクトを検出またはセグメンテーションする能力を獲得させる。実験の結果、Meta R-CNNは少サンプルオブジェクト検出において最先端の性能を達成し、Mask R-CNNによる少サンプルオブジェクトセグメンテーションの性能も向上させた。