8ヶ月前

概要

最近開発されたDETR手法は、トランスフォーマーのエンコーダおよびデコーダアーキテクチャを物体検出に適用し、有望な性能を達成している。本論文では、訓練収束が遅いという重要な課題に取り組み、高速なDETR学習を実現するための条件付きクロスアテンション機構を提案する。本研究の動機は、DETRにおけるクロスアテンションが、四隅の位置特定およびボックス予測に高度にコンテンツ埋め込み（content embeddings）に依存している点にある。このため、高品質なコンテンツ埋め込みの必要性が増し、結果として学習の難易度が高まっている。本研究で提案する手法、すなわち条件付きDETR（conditional DETR）は、デコーダの埋め込みから条件付き空間クエリ（conditional spatial query）を学習し、デコーダのマルチヘッドクロスアテンションに用いる。その利点は、条件付き空間クエリにより、各クロスアテンションヘッドが明確な領域（例えば、1つの物体の端点、またはボックス内の領域）を含む帯状領域に注目できる点にある。これにより、物体分類およびボックス回帰における特徴領域の局所化に必要な空間範囲が狭められ、コンテンツ埋め込みへの依存が軽減され、学習が容易になる。実証実験の結果、条件付きDETRはR50およびR101ベースラインでは学習収束が6.7倍速くなり、より強力なベースラインであるDC5-R50およびDC5-R101では10倍速くなることが確認された。コードは以下のGitHubリポジトリで公開されている：https://github.com/Atten4Vis/ConditionalDETR。

ソースPDF