11日前
LaMI-DETR:言語モデル指令を用いたオープンボキャブラリ検出
Penghui Du, Yu Wang, Yifan Sun, Luting Wang, Yue Liao, Gang Zhang, Errui Ding, Yan Wang, Jingdong Wang, Si Liu

要約
従来の手法は、CLIPなどの視覚言語モデル(VLM)が持つ強力なオープンボリューム認識能力を活用することで、オープンボリューム物体検出の性能を向上させている。しかし、以下の2つの主要な課題が浮き彫りになっている。(1) 概念表現の不足:CLIPのテキスト空間におけるカテゴリ名には、テキスト的・視覚的な知識が欠如している。(2) 基底カテゴリへの過学習傾向:VLMから検出器への知識移行過程において、オープンボリューム知識が基底カテゴリに偏ってしまう。これらの課題に対処するため、本研究では言語モデル指令(Language Model Instruction; LaMI)戦略を提案する。LaMIは視覚的概念間の関係性を活用し、シンプルかつ効果的なDETR型検出器であるLaMI-DETRに統合する。LaMIはGPTを用いて視覚的概念を構築し、T5を用いてカテゴリ間の視覚的類似性を分析する。これらのカテゴリ間の関係性により、概念表現が精緻化されるとともに、基底カテゴリへの過学習を回避する。包括的な実験により、外部学習リソースに依存せずに、同等の厳格な設定下で既存手法を上回る優れた性能を確認した。LaMI-DETRはOV-LVISにおけるレアボックスAPで43.4を達成し、従来の最高記録を7.8ポイント上回った。