2ヶ月前

少ない例で全てを検出する

Zhang, Xinyu ; Liu, Yuhan ; Wang, Yuting ; Boularias, Abdeslam
少ない例で全てを検出する
要約

少ショット物体検出は、わずかな例画像しか与えられない状況で新しいカテゴリを検出することを目指しています。これは、オープン環境でのタスク遂行に必要なロボットの基本的なスキルです。最近の手法では、複雑な手順により広範な応用が制限されるファインチューニング戦略に焦点を当てています。本論文では、ファインチューニングを必要としない少ショット物体検出器であるDE-ViT(Detection-Enhanced Vision Transformer)を紹介します。DE-ViTの新規アーキテクチャは、位置特定のための新しい領域伝播メカニズムに基づいています。伝播された領域マスクは、学習可能な空間積分層を通じてバウンディングボックスに変換されます。プロトタイプ分類器の訓練ではなく、私たちはViT特徴量を過学習に強い部分空間へ射影するためにプロトタイプを使用することを提案します。Pascal VOC、COCO、およびLVISを使用した少ショットおよび単一ショット物体検出ベンチマークにおいてDE-ViTの評価を行いました。DE-ViTはすべてのベンチマークで新たな最先端の結果を達成しました。特にCOCOにおいては、10ショットで少ショット最良手法(SoTA)を超える15 mAP(mean Average Precision)、30ショットで7.2 mAP、そして単一ショットで2.8 AP50(Average Precision at 50% IoU)という性能を示しました。またLVISにおいても、DE-ViTは少ショット最良手法を超える17 box APr(Average Precision for rare categories)という結果を出しました。さらに、実際のロボットを使用して例画像に基づく新しい物体の仕分けを行うピックアンドプレースシステムを構築し、DE-ViTの評価を行いました。当該ロボットデモンストレーションの動画やDE-ViTのソースコードとモデルは以下のURLから入手可能です: https://mlzxy.github.io/devit.

少ない例で全てを検出する | 最新論文 | HyperAI超神経