11日前
プロポーザルマイニングと予測等価化を用いたオープンボキャブラリーオブジェクト検出
Peixian Chen, Kekai Sheng, Mengdan Zhang, Mingbao Lin, Yunhang Shen, Shaohui Lin, Bo Ren, Ke Li

要約
オープンボキャブラリーオブジェクト検出(OVD)は、学習時に使用された語彙を超えて、新たなカテゴリのオブジェクトを検出できるように語彙の規模を拡大することを目的としています。近年の研究では、事前学習された視覚言語モデルに蓄積された豊富な知識に依拠するアプローチが採用されています。しかし、既存の手法は、提案(proposal)レベルにおける視覚と言語の整合性を効果的に捉えておらず、またモデルはベースカテゴリに対して信頼度バイアスを示し、新規カテゴリの検出性能が低下する傾向にあります。これらの課題を克服するため、本研究では提案抽出と予測の平等化を組み合わせた新規かつ効果的なOVDフレームワーク「MEDet」を提案します。まず、粗い視覚的・意味的知識を細粒度に精緻化するためのオンライン提案抽出機構を設計し、提案レベルでの検出指向の特徴整合を可能にしました。次に、因果推論理論に基づき、クラスごとのバックドア調整を導入することで、新規カテゴリの予測を強化し、全体的なOVD性能を向上させました。COCOおよびLVISベンチマークにおける広範な実験により、MEDetが競合手法に比べて新規カテゴリのオブジェクト検出性能において優れていることが実証され、特にCOCOではAP50が32.6%、LVISではマスクmAPが22.4%を達成しました。