概要

トランスフォーマーは、特に認識タスクにおいてコンピュータビジョンの分野を変革しつつある。検出トランスフォーマー（Detection Transformers）は、オブジェクト検出における最初の完全なエンドツーエンド学習システムであり、ビジョントランスフォーマー（Vision Transformers）は画像分類に完全にトランスフォーマーに基づくアーキテクチャとして初めて登場した。本論文では、ビジョントランスフォーマーと検出トランスフォーマーを統合したViDT（Vision and Detection Transformers）を提案し、効果的かつ効率的なオブジェクト検出器の構築を実現した。ViDTは、最近のSwinトランスフォーマーを拡張して独立したオブジェクト検出器として利用可能にするための再構成されたアテンションモジュールを導入し、さらにマルチスケール特徴を効果的に活用する計算効率の高いトランスフォーマーデコーダーを採用している。このデコーダーは、検出性能を向上させるために不可欠な補助技術も統合しており、計算負荷の大幅な増加を伴わず、高い性能を実現している。マイクロソフトのCOCOベンチマークデータセットにおける広範な評価結果から、ViDTは既存の完全トランスフォーマー型オブジェクト検出器の中で最高のAP（平均精度）とレイテンシのトレードオフを達成しており、大規模モデルへの高いスケーラビリティを活かして49.2のAPを達成した。コードおよび学習済みモデルは、https://github.com/naver-ai/vidt にて公開予定である。

ソースPDF