16日前

オープンボリューム物体検出のためのBag of Regionsの整合

Size Wu, Wenwei Zhang, Sheng Jin, Wentao Liu, Chen Change Loy
オープンボリューム物体検出のためのBag of Regionsの整合
要約

事前学習された視覚言語モデル(VLM)は、大規模なデータセット上で視覚表現と言語表現の対応付けを学習するが、各画像-テキストペアには通常、複数の意味的コンセプト(袋)が含まれる。しかし、従来のオープンボキャブラリオブジェクト検出器は、個々の領域埋め込みをVLMから抽出された対応する特徴と個別に対応させているにとどまっている。このアプローチでは、シーン内の意味的コンセプトの構成構造が十分に活用されていない。たとえVLMがその構造を暗黙的に学習しているとしてもである。本研究では、個々の領域を超えて「領域の袋(bag of regions)」の埋め込みを対応させる手法を提案する。本手法では、文脈的に関連する領域をグループ化して「袋」とする。この袋内の領域埋め込みを文章中の単語埋め込みと同一視し、VLMのテキストエンコーダに送ることで、領域の袋に対する埋め込みを生成する。この「領域の袋埋め込み」は、固定されたVLMによって抽出された対応する特徴と一致するように学習される。一般的に用いられるFaster R-CNNに適用した結果、オープンボキャブラリCOCOおよびLVISベンチマークにおける新規カテゴリにおいて、従来の最良性能をそれぞれ4.6のbox AP50および2.8のmask APで上回った。コードとモデルは、https://github.com/wusize/ovdet で公開されている。

オープンボリューム物体検出のためのBag of Regionsの整合 | 最新論文 | HyperAI超神経