3ヶ月前

SMILEtrack:遮蔽を考慮した複数対象追跡のためのSiMIlarity LEarning

Yu-Hsiang Wang, Jun-Wei Hsieh, Ping-Yang Chen, Ming-Ching Chang, Hung Hin So, Xin Li
SMILEtrack:遮蔽を考慮した複数対象追跡のためのSiMIlarity LEarning
要約

複数対象追跡(Multiple Object Tracking: MOT)分野では近年、多くの進展が見られたが、隠蔽(occlusions)、類似物体、複雑なシーンなどに起因する課題は依然として未解決のままである。一方で、代表的な「検出後に追跡(tracking-by-detection)」アーキテクチャにおけるコストと性能のトレードオフに関する体系的な研究は依然として不足している。本論文では、効率的な物体検出器と、シアメスネットワークに基づく類似度学習モジュール(Similarity Learning Module: SLM)を統合することで、これらの課題を効果的に克服する新規オブジェクト追跡手法「SMILEtrack」を提案する。SMILEtrackの技術的貢献は以下の2点に集約される。第一に、SDE(Separate Detection and Embedding)モデルにおける特徴記述子の限界を克服するため、2つのオブジェクト間の外観類似度を計算するSLMを提案する。このSLMは、視覚Transformer(Vision Transformer)に着想を得たPatch Self-Attention(PSA)ブロックを組み込み、高信頼性な特徴を生成し、正確な類似度マッチングを実現する。第二に、連続する動画フレーム間での堅牢なオブジェクトマッチングを実現するため、新規のGATE関数を備えたSimilarity Matching Cascade(SMC)モジュールを構築した。これらの革新により、SMILEtrackは、BYTETrackを含む複数の最先端ベンチマークにおいて、コスト(例:実行速度)と性能(例:追跡精度)のバランスを改善し、優れた性能を達成した。特にMOT17およびMOT20データセットにおいて、BYTETrackに対してMOTAで0.4~0.8ポイント、HOTAで2.1~2.2ポイントの向上を達成した。本研究のコードは、https://github.com/pingyang1117/SMILEtrack_Official にて公開されている。