17日前

Transformerを用いた検出のための再帰的グリムプスベースデコーダ

Zhe Chen, Jing Zhang, Dacheng Tao
Transformerを用いた検出のための再帰的グリムプスベースデコーダ
要約

Transformerを用いた検出(DETR)はますます普及しているが、そのグローバルな注目メカニズムは、望ましい検出性能を達成するためには極めて長い学習期間を要するという課題を抱えている。従来の研究では、主に高度な特徴量または埋め込み設計の開発に注力して学習の難しさを克服しようとしてきたが、本研究では、領域-of-interest(RoI)に基づく検出の精緻化が、DETR手法の学習困難を容易に軽減できる可能性を指摘する。この洞察に基づき、本論文では新たな再帰的グリムプスに基づくデコーダ(REcurrent Glimpse-based decOder;REGO)を提案する。具体的には、REGOは多段階の再帰処理構造を採用し、DETRの注目メカニズムが前景オブジェクトに徐々により正確に焦点を当てるのを支援する。各処理段階において、前段階の検出結果に基づくバウンディングボックス領域を拡大し、そのRoIから視覚的特徴を「グリムプス特徴」として抽出する。その後、そのグリムプス特徴と前段階の注目メカニズム出力の両方を用いて、精緻な検出結果を生成するグリムプスベースのデコーダを導入する。実際の応用では、REGOは代表的なDETR変種に容易に統合可能であり、完全なエンドツーエンドの学習および推論パイプラインを維持しつつ、性能を向上させることができる。特に、REGOを導入することで、Deformable DETRは500エポックと50エポックを必要とする従来のDETRおよびDeformable DETRと同等の性能(MSCOCOデータセットにおける44.8 AP)を、わずか36エポックで達成することができる。実験結果から、50エポックという同じ設定下で、REGOはさまざまなDETR検出器の性能を最大7%の相対向上率で一貫して向上させることも明らかになった。コードは、https://github.com/zhechen/Deformable-DETR-REGO にて公開されている。