2ヶ月前
D-FINE: DETRにおける回帰タスクを細かい分布の洗練として再定義
Yansong Peng; Hebei Li; Peixi Wu; Yueyi Zhang; Xiaoyan Sun; Feng Wu

要約
D-FINEの紹介:DETRモデルにおけるバウンディングボックス回帰タスクを再定義することで、優れた位置特定精度を達成する強力なリアルタイムオブジェクト検出器です。D-FINEは、Fine-grained Distribution Refinement(FDR)とGlobal Optimal Localization Self-Distillation(GO-LSD)という2つの主要な構成要素から成ります。FDRは、固定された座標を予測する回帰プロセスを、確率分布の反復的な精緻化に変換します。これにより、位置特定の精度が大幅に向上する細かい中間表現が提供されます。GO-LSDは双方向最適化戦略で、自己蒸留を通じて精緻化された分布から浅い層へ位置特定の知識を転送するとともに、深い層での残差予測タスクも簡素化します。さらに、D-FINEは計算負荷が高いモジュールや操作において軽量な最適化を取り入れており、速度と精度のバランスをより良くしています。具体的には、NVIDIA T4 GPU上でCOCOデータセットにおいてD-FINE-L / Xは124 / 78 FPSで54.0% / 55.8% APを達成しています。Objects365で事前学習した場合、D-FINE-L / Xは57.1% / 59.3% APに到達し、既存のすべてのリアルタイム検出器を上回っています。また、当手法はDETRモデルの幅広い範囲において最大5.3% APの性能向上を実現しており、追加パラメータや学習コストはほとんど増えていません。コードおよび事前学習済みモデル: https://github.com/Peterande/D-FINE