HyperAIHyperAI

Command Palette

Search for a command to run...

ViDT:効率的かつ効果的な完全Transformerベースの物体検出器

Hwanjun Song Deqing Sun Sanghyuk Chun Varun Jampani Dongyoon Han Byeongho Heo Wonjae Kim Ming-Hsuan Yang

概要

トランスフォーマーは、特に認識タスクにおいてコンピュータビジョンの分野を変革しつつある。検出トランスフォーマー(Detection Transformers)は、オブジェクト検出における最初の完全なエンドツーエンド学習システムであり、ビジョントランスフォーマー(Vision Transformers)は画像分類に完全にトランスフォーマーに基づくアーキテクチャとして初めて登場した。本論文では、ビジョントランスフォーマーと検出トランスフォーマーを統合したViDT(Vision and Detection Transformers)を提案し、効果的かつ効率的なオブジェクト検出器の構築を実現した。ViDTは、最近のSwinトランスフォーマーを拡張して独立したオブジェクト検出器として利用可能にするための再構成されたアテンションモジュールを導入し、さらにマルチスケール特徴を効果的に活用する計算効率の高いトランスフォーマーデコーダーを採用している。このデコーダーは、検出性能を向上させるために不可欠な補助技術も統合しており、計算負荷の大幅な増加を伴わず、高い性能を実現している。マイクロソフトのCOCOベンチマークデータセットにおける広範な評価結果から、ViDTは既存の完全トランスフォーマー型オブジェクト検出器の中で最高のAP(平均精度)とレイテンシのトレードオフを達成しており、大規模モデルへの高いスケーラビリティを活かして49.2のAPを達成した。コードおよび学習済みモデルは、https://github.com/naver-ai/vidt にて公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています