2ヶ月前

キャプションを使用したオープンボキャブラリ物体検出

Alireza Zareian; Kevin Dela Rosa; Derek Hao Hu; Shih-Fu Chang

要約

深層ニューラルネットワークは物体検出において著しい精度を達成していますが、教師あり学習の要件により、その訓練とスケーリングには高コストがかかります。特に、より多くの物体カテゴリを学習するためには、通常、それに比例した量のバウンディングボックス注釈が必要となります。弱教師あり学習やゼロショット学習技術は、少ない教師データでより多くのカテゴリに物体検出器をスケーリングすることを目的として研究されてきましたが、これらの手法は教師ありモデルほど成功して広く採用されていません。本論文では、物体検出問題の新たな定式化であるオープン・ボキャブラリー物体検出（open-vocabulary object detection）を提案します。この手法は弱教師あり学習やゼロショットアプローチよりも一般的であり、実用的であり、効果的です。私たちは限られた数の物体カテゴリに対するバウンディングボックス注釈だけでなく、より多様な物体をカバーし且つ大幅に低いコストで得られる画像-キャプションペアを使用して物体検出器を訓練する新方法を提案します。提案された方法は、訓練中にバウンディングボックス注釈が提供されなかった物体もゼロショットアプローチよりも大幅に高い精度で検出し位置特定できることが示されました。一方で、バウンディングボックス注釈のある物体は教師あり手法とほぼ同等の精度で検出できることも確認され、これは弱教師あり基準よりも大幅に優れています。これにより、スケーラブルな物体検出における新しい最先端技術が確立されました。