2ヶ月前

クロスドメイン少ショット物体検出を実現するための強化されたオープンセット物体検出器

Fu, Yuqian ; Wang, Yu ; Pan, Yixuan ; Huai, Lian ; Qiu, Xingyu ; Shangguan, Zeyu ; Liu, Tong ; Fu, Yanwei ; Van Gool, Luc ; Jiang, Xingqun

論文の詳細を見る

クロスドメイン少ショット物体検出を実現するための強化されたオープンセット物体検出器

要約

本論文では、挑戦的なクロスドメイン・ファインショット物体検出（CD-FSOD）を研究し、最小限のラベル付きサンプルで新しいドメインにおいて高精度な物体検出器を開発することを目指しています。トランスフォーマーを基盤とするオープンセット検出器（例：DE-ViT）は従来のファインショット物体検出において有望な結果を示していますが、それらがCD-FSODに一般化できるかどうかは明確ではありません。1) そのようなオープンセット検出方法がCD-FSODに容易に一般化できるでしょうか？2) できない場合、大きなドメインギャップに対処するためにモデルをどのように強化できるでしょうか？これらの問いに対する回答を得るため、スタイル、クラス間分散（Inter-Class Variance: ICV）、および定義不能境界（Indefinable Boundaries: IB）などの指標を使用してドメインギャップを理解します。これらの指標に基づいて、新たなベンチマークであるCD-FSODを設定し、現在のアプローチの大半がドメイン間での一般化に失敗していることを明らかにしました。技術的には、性能低下が我々が提案する指標（スタイル、ICV、IB）と関連していることが観察されました。これにより、これらの問題に対処するためのいくつかの新規モジュールを提案します。まず、学習可能なインスタンス特徴量は初期固定インスタンスと目標カテゴリを合わせることで特徴量の区別性を向上させます。次に、インスタンス再重み付けモジュールはわずかなIBを持つ高品質なインスタンスに高い重要度を割り当てます。さらに、ドメインプロンターはセマンティックコンテンツを変えずに想像上のドメインを合成することで異なるスタイルに対して頑健な特徴量を促進します。これらの技術は共同してクロスドメイン・ビジョン・トランスフォーマー（Cross-Domain Vision Transformer for CD-FSOD: CD-ViTO）の開発に貢献し、ベースとなるDE-ViTよりも大幅に性能向上につながりました。実験結果は我々のモデルの有効性を確認しています。