11日前

MeMOTR:マルチオブジェクトトラッキングにおける長期記憶拡張型Transformer

Ruopeng Gao, Limin Wang
MeMOTR:マルチオブジェクトトラッキングにおける長期記憶拡張型Transformer
要約

複数対象追跡(Multiple Object Tracking: MOT)は動画タスクとして、対象の時系列情報を効果的に捉えることが求められる。しかし、現存する大多数の手法は隣接フレーム間の対象特徴のみを明示的に活用しており、長期的な時系列情報をモデル化する能力に欠けている。本論文では、長期記憶を統合したTransformerモデルであるMeMOTRを提案する。本手法は、独自のメモリアテンション層を用いて長期記憶を注入することで、同一対象のトラック埋め込みをより安定的かつ区別しやすくする。これにより、モデルの対象関連付け能力が顕著に向上する。DanceTrackデータセットにおける実験結果から、MeMOTRは最先端手法に対してHOTAおよびAssAの各指標でそれぞれ7.9%および13.0%の優位性を示した。さらに、MOT17における関連付け性能においても他のTransformerベースの手法を上回り、BDD100Kにおいても良好な汎化性能を発揮した。コードはhttps://github.com/MCG-NJU/MeMOTRにて公開されている。

MeMOTR:マルチオブジェクトトラッキングにおける長期記憶拡張型Transformer | 最新論文 | HyperAI超神経