3ヶ月前

MI-DETR:マルチタイムインクワイリーズ機構を備えたオブジェクト検出モデル

Nan, Zhixiong, Li, Xianghong, Dai, Jifeng, Xiang, Tao
MI-DETR:マルチタイムインクワイリーズ機構を備えたオブジェクト検出モデル
要約

従来のDETR類モデルで一般的に採用されているカスケード型デコーダアーキテクチャの特性を分析したうえで、本論文では新たなデコーダアーキテクチャを提案する。カスケード型デコーダアーキテクチャは、オブジェクトクエリがカスケード方向にのみ更新されることを制約しており、画像特徴から相対的に限られた情報しか学習できないという課題を抱えている。一方、自然シーンにおけるオブジェクト検出の課題(例えば、極めて小さなオブジェクト、重度の遮蔽、背景と混在している状況など)は、モデルが画像特徴を十分に活用できるようにする必要がある。この動機から、並列的なマルチタイムインクワイリーズ(Multi-time Inquiries; MI)機構を備えた新たなデコーダアーキテクチャを提案した。MI機構により、オブジェクトクエリはより包括的な情報を学習可能となり、本研究で提案するMI-DETRモデルは、異なるバックボーンと学習エポックにおいて、すべての既存のDETR類モデルを上回る性能を達成した。特にResNet-50バックボーン下では、代表的なモデルDINOおよびSOTAモデルRelation-DETRと比較して、それぞれ+2.3 APおよび+0.6 APの向上を達成した。さらに、診断実験および可視化実験を通じて、MI機構の有効性、合理性、解釈可能性が実証された。