11日前
条件付きマッチングを用いたオープンボキャブラリーデテクター
Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy

要約
オープンボリュームオブジェクト検出(Open-vocabulary object detection)は、自然言語を用いたガイドのもとで未知のオブジェクトを検出するという問題に注目が集まっている。理想的には、ユーザーが自然言語または例示画像(exemplar image)として入力した情報をもとに、境界ボックスの予測を生成できるオープンボリューム検出器を拡張したい。これにより、人間とコンピュータのインタラクションにおいて高い柔軟性と使いやすさが実現される。この目的の下、本研究ではDETRに基づく新しいオープンボリューム検出器、すなわちOV-DETRを提案する。訓練が完了した後、クラス名または例示画像を入力することで、任意のオブジェクトを検出可能となる。DETRをオープンボリューム検出器に変換する際の最大の課題は、ラベル付き画像にアクセスできない状況下で、未知クラスの分類コスト行列を計算することが不可能である点にある。この課題を克服するため、入力クエリ(クラス名または例示画像)と対応するオブジェクトとの間で二値マッチングを目的関数として定式化し、テスト時に未見のクエリへ一般化するための有用な対応関係を学習する。訓練の際には、CLIPなどの事前学習済み視覚言語モデルから得られる入力埋め込みをTransformerデコーダの条件付けに用いることで、テキストクエリと画像クエリの両方に対してマッチングを可能とする。LVISおよびCOCOデータセットにおける広範な実験により、本研究で提案するOV-DETR——世界初のエンドツーエンド型Transformerベースのオープンボリューム検出器——が、現在の最先端技術に対して顕著な性能向上を達成することを示した。