16日前

TransCenter:複数対象追跡のための密集表現を備えたTransformer

Yihong Xu, Yutong Ban, Guillaume Delorme, Chuang Gan, Daniela Rus, Xavier Alameda-Pineda
TransCenter:複数対象追跡のための密集表現を備えたTransformer
要約

Transformerは導入されて以来、多様なタスクにおいて優れた性能を示してきている。近年、画像分類や物体検出などにおける視覚分野でも、Transformerの注目が高まっている。しかし、こうした潮流の中でも、Transformerを基盤とする正確かつ効率的な複数物体追跡(Multiple-Object Tracking: MOT)手法の設計はまだなされていない。本研究では、二次時間計算量を有する従来のTransformerアーキテクチャを、ノイズ初期化された疎なクエリにより直接適用することは、MOTに対して最適ではないと主張する。そこで、すべての物体を高精度に追跡しつつも、実行時間の面でも合理的な性能を実現するため、Transformerを基盤とする新規アーキテクチャ「TransCenter」を提案する。手法的に、画像関連の密な検出クエリと、我々が精緻に設計したクエリ学習ネットワーク(Query Learning Network: QLN)によって生成される効率的な疎な追跡クエリの使用を提唱する。一方で、密な画像関連検出クエリにより、密なヒートマップ出力に基づいて対象物体の位置をグローバルかつ堅牢に推定可能となる。他方で、疎な追跡クエリの集合は、TransCenterデコーダ内で画像特徴と効率的に相互作用し、時間軸にわたる物体位置の関連付けを実現する。その結果、TransCenterは、2つの標準的なMOTベンチマーク(公開/非公開設定)において、現在の最先端手法を大きく上回る顕著な性能向上を達成した。また、広範なアブレーションスタディおよびより単純な代替手法や同時期の研究との比較を通じて、TransCenterの高精度性と効率性が実証された。学術的関心を考慮し、本研究のコードはGitHubにて公開されている(https://github.com/yihongxu/transcenter)。

TransCenter:複数対象追跡のための密集表現を備えたTransformer | 最新論文 | HyperAI超神経