13日前

視覚的オブジェクト検出のための統合的移行型事前学習Transformerエンコーダデコーダ

Feng Liu, Xiaosong Zhang, Zhiliang Peng, Zonghao Guo, Fang Wan, Xiangyang Ji, Qixiang Ye
視覚的オブジェクト検出のための統合的移行型事前学習Transformerエンコーダデコーダ
要約

現代の物体検出器は、大規模データセットで事前学習されたバックボーンネットワークの利点を活用している。しかし、バックボーンネットワーク以外のコンポーネント、例えば検出ヘッドや特徴ピラミッドネットワーク(FPN)は依然としてランダム初期化から学習を開始するため、表現モデルの潜在能力を十分に引き出すことは難しい。本研究では、事前学習済みのトランスフォーマー・エンコーダ-デコーダーを検出器に統合的に移行する手法(imTED: integrated migration of pre-trained Transformer encoder-decoders)を提案する。これにより、特徴抽出パスを「完全に事前学習済み」の状態に構築し、検出器の汎化能力を最大化する。imTEDとベースライン検出器との主な相違点は以下の2点である:(1)特徴抽出パスからランダム初期化されたFPNを削除し、事前学習済みのトランスフォーマー・デコーダーを検出ヘッドに移行すること;(2)スケール適応性を向上させるためのマルチスケール特徴モジュレータ(MFM: multi-scale feature modulator)を導入すること。これらの設計により、ランダム初期化パラメータを大幅に削減するとともに、検出器の学習と表現学習を意図的に統一する。MS COCO物体検出データセットにおける実験結果から、imTEDは他の手法と比較して一貫して約2.4 APの性能向上を達成した。装飾的な技術を一切用いずに、少サンプル物体検出の最先端性能を最大7.6 AP向上させた。コードは以下のURLから公開されている:https://github.com/LiewFeng/imTED。

視覚的オブジェクト検出のための統合的移行型事前学習Transformerエンコーダデコーダ | 最新論文 | HyperAI超神経