HyperAIHyperAI

Command Palette

Search for a command to run...

時空間トランスフォーマーを用いた視覚追跡の学習

Bin Yan Houwen Peng Jianlong Fu Dong Wang Huchuan Lu

概要

本論文では、エンコーダー-デコーダー変換器を主要な構成要素とする新しい追跡アーキテクチャを提案します。エンコーダーは対象物体と探索領域の間の全体的な時空間特徴依存関係をモデル化し、デコーダーはクエリ埋め込みを学習して対象物体の空間位置を予測します。当手法は物体追跡を直接的なバウンディングボックス予測問題として扱い、プロポーザルや事前定義されたアンカーを使用しません。エンコーダー-デコーダー変換器により、物体の予測には単純な全結合畳み込みネットワーク(Fully-Convolutional Network)のみを使用し、物体の角を直接推定します。この手法はエンドツーエンドであり、コサインウィンドウやバウンディングボックス平滑化などの後処理ステップを必要とせず、既存の追跡パイプラインを大幅に簡素化します。提案されたトラッカーは5つの挑戦的な短期および長期ベンチマークで最先端の性能を達成しており、Siam R-CNNよりも6倍速くリアルタイム速度で動作します。コードとモデルはオープンソースで提供されており、以下のURLからアクセスできます: https://github.com/researchmm/Stark


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
時空間トランスフォーマーを用いた視覚追跡の学習 | 記事 | HyperAI超神経