Command Palette
Search for a command to run...
Anchor DETR:Transformerベース物体検出におけるクエリ設計
Anchor DETR:Transformerベース物体検出におけるクエリ設計
Yingming Wang Xiangyu Zhang Tong Yang Jian Sun
概要
本稿では、Transformerベースの物体検出に向けた新たなクエリ設計を提案する。従来のTransformerベースの検出器では、物体クエリは学習可能な埋め込みベクトルの集合として定義されていた。しかし、各学習済み埋め込みには明確な物理的意味がなく、どの領域に注目するかを説明することが困難である。また、各物体クエリの予測スロットに特定のモードが存在しないため、最適化が困難である。すなわち、各クエリは特定の領域に注目するという特性を持たない。このような問題を解決するために、本研究のクエリ設計では、CNNベースの検出器で広く用いられているアンカーポイントに基づく物体クエリを採用する。これにより、各クエリはアンカーポイント周辺の物体に注目するようになる。さらに、本設計は1つの位置から複数の物体を予測できるため、「1つの領域に複数の物体」を扱う困難に対応できる。加えて、標準的なAttentionと比較して、同等または優れた性能を維持しつつメモリコストを削減できるAttentionの変種を提案する。これらのクエリ設計とAttentionの変種の導入により、本研究で提案する検出器「Anchor DETR」は、訓練エポック数を10倍削減した状態でも、DETRよりも優れた性能と高速な処理を達成する。例えば、ResNet50-DC5特徴量を用いて50エポックで学習した場合、MSCOCOデータセット上で44.2 AP、19 FPSの性能を達成する。MSCOCOベンチマークにおける広範な実験により、提案手法の有効性が実証された。コードは以下のURLから公開されている:\url{https://github.com/megvii-research/AnchorDETR}。