
要約
私たちはオープンワールドのクラスアnosticオブジェクト検出という課題に取り組んでいます。これは、限られた数のベースオブジェクトクラスから学習することで、画像内のすべてのオブジェクトを検出することです。最先端のRGBベースのモデルは、訓練クラスへの過学習が問題であり、新しい見た目のオブジェクトを検出することがしばしば困難です。これは、RGBベースのモデルが主に外観の類似性に依存して新しいオブジェクトを検出し、テクスチャや識別的な部分などのショートカット手がかりに過学習しやすいからです。これらのRGBベースのオブジェクト検出器の欠点に対処するため、一般的な単眼推定器によって予測される深度や法線などの幾何学的手がかりを取り入れることを提案します。具体的には、これらの幾何学的手がかりを使用して、訓練セット内の未注釈の新しいオブジェクトに対して疑似ラベル付けを行うためのオブジェクト提案ネットワークを訓練します。その結果得られるGeometry-guided Open-world Object Detector (GOOD)(幾何学誘導型オープンワールドオブジェクト検出器)は、新しいオブジェクトカテゴリの検出リコールを大幅に向上させ、わずかな訓練クラスでも既に良好な性能を発揮します。COCOデータセットで「人物」クラスのみを使用した訓練において、GOODはSOTA方法を超える5.0% AR@100(相対改善率24%)を達成しました。