17日前

トランスフォーマーを用いたエンドツーエンド型オブジェクト検出

Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
トランスフォーマーを用いたエンドツーエンド型オブジェクト検出
要約

本稿では、物体検出を直接的な集合予測問題として捉える新しい手法を提案する。このアプローチは検出パイプラインを簡素化し、物体検出における事前知識を明示的に表現する必要がある、非最大抑制(non-maximum suppression)手順やアンカー生成といった多数の手動設計されたコンポーネントの削除を可能にする。新フレームワーク「DEtection TRansformer(DETR)」の主な構成要素は、二部マッチングにより一意な予測を強制する集合ベースのグローバル損失関数と、トランスフォーマー型エンコーダ・デコーダアーキテクチャである。固定された少数の学習可能なオブジェクトクエリを入力として、DETRはオブジェクト間の関係性とグローバルな画像コンテキストを統合的に推論し、並列的に最終的な予測集合を直接出力する。この新モデルは概念的に単純であり、多くの現代的な検出器とは異なり、専用のライブラリを必要としない。COCO物体検出データセットという難易度の高いベンチマークにおいて、DETRは成熟度が高く高度に最適化されたFaster R-CNNベースラインと同等の精度と実行時間性能を達成している。さらに、DETRは一貫した枠組み内でパンセグメンテーション(全体的セグメンテーション)を容易に拡張可能であり、競合するベースラインと比較して顕著な性能向上を示している。トレーニングコードおよび事前学習済みモデルは、https://github.com/facebookresearch/detr にて公開されている。

トランスフォーマーを用いたエンドツーエンド型オブジェクト検出 | 最新論文 | HyperAI超神経