2ヶ月前

Relation DETR: 明示的な位置関係の事前知識を用いた物体検出の探索

Hou, Xiuquan ; Liu, Meiqin ; Zhang, Senlin ; Wei, Ping ; Chen, Badong ; Lan, Xuguang
Relation DETR: 明示的な位置関係の事前知識を用いた物体検出の探索
要約

本論文では、DETR(DEtection TRansformer)の収束性と性能を向上させる一般的なスキームを提示する。我々は、トランスフォーマーにおける遅い収束問題を新しい視点から調査し、自己注意機構が入力に対して構造的なバイアスを持たないことがその原因であると提案している。この問題に対処するために、位置関係の事前知識を注意バイアスとして組み込むことで物体検出を強化することを探求した。これは、提案された定量的マクロコリレーション(MC)指標を使用して統計的有意性を確認した後に行われた。我々の手法はRelation-DETRと呼ばれ、エンコーダーを導入して位置関係埋め込みを構築し、進行的な注意精緻化を行う。これにより、従来のDETRのストリーミングパイプラインが対照的な関係パイプラインに拡張され、重複しない予測と正例教師データとの間の矛盾が解消される。COCO val2017での包括的な実験結果は、当手法の有効性を示しており、同じ設定条件下でRelation-DETRは大幅な改善(DINOと比較して+2.0% AP)、最先端の性能(1x設定で51.7% AP、2x設定で52.1% AP)、および既存のDETR検出器よりも著しく速い収束速度(わずか2エポックで40%以上のAP)を達成している。さらに、提案された関係エンコーダーは普遍的なプラグイン・アンド・プレイコンポーネントとして機能し、理論的にどのDETR類似手法にも明確な改善をもたらす。また、クラス非依存検出データセットSA-Det-100kを紹介する。このデータセットでの実験結果は、提案された明示的な位置関係が1.3% APの明確な改善を達成しており、普遍的な物体検出への可能性を示唆している。コードとデータセットはhttps://github.com/xiuqhou/Relation-DETR で公開されている。