2ヶ月前

DEIM: DETRの改善されたマッチングによる高速収束

Shihua Huang; Zhichao Lu; Xiaodong Cun; Yongjun Yu; Xiao Zhou; Xi Shen
DEIM: DETRの改善されたマッチングによる高速収束
要約

私たちはDEIM(Dense End-to-End Instance Matching)を紹介します。これは、Transformerベースのアーキテクチャ(DETR)を使用したリアルタイム物体検出における収束を加速する革新的かつ効率的な学習フレームワークです。DETRモデルに固有の1対1(O2O)マッチングにおける疎な教師あり学習を緩和するために、DEIMはデンドシックな1対1マッチング戦略を採用しています。この手法では、標準的なデータ拡張技術を使用して追加のターゲットを取り入れることで、画像ごとの正例サンプル数を増やします。デンドシックな1対1マッチングは収束を加速しますが、同時に多くの低品質なマッチングも導入し、性能に影響を与える可能性があります。これを解決するために、我々はMatchability-Aware Loss(MAL)という新しい損失関数を提案します。この損失関数は、さまざまな品質レベルでのマッチングを最適化し、デンドシックな1対1マッチングの効果性を向上させます。COCOデータセットでの広範な実験により、DEIMの有効性が確認されています。RT-DETRやD-FINEと統合すると、DEIMは一貫して性能を向上させつつ、学習時間を50%削減することが示されています。特にRT-DETRv2と組み合わせると、NVIDIA 4090 GPU上で1日の学習で53.2% AP(Average Precision)を達成しました。さらに、DEIMで学習されたリアルタイムモデルは主要なリアルタイム物体検出器よりも優れた性能を発揮しており、NVIDIA T4 GPU上でそれぞれ124 FPSと78 FPSで54.7% APと56.5% APを達成したDEIM-D-FINE-LおよびDEIM-D-FINE-Xがその例です。これらの結果は追加データなしで得られています。我々は、DEIMがリアルタイム物体検出分野での進歩に新たな基準となると考えています。当該コードおよび事前学習済みモデルはhttps://github.com/ShihuaHuang95/DEIMから入手可能です。