シアモニックトラッカーにおける非対称特徴マップの融合学習

近年、シメイズ型トラッカーは視覚追跡において有望な性能を達成している。最近の多数のシメイズ型トラッカーは、ターゲット領域とサーチ領域の2つの特徴マップ間から多チャネル相関情報を得るために、ディープワイズクロス相関(DW-XCorr)を用いている。しかし、DW-XCorrにはシメイズ型追跡においていくつかの制限がある。具体的には、ノイズや干渉物体(distractors)に容易に欺かれる傾向があり、活性化されるチャネル数が少ない上、物体の境界の識別力が弱い。さらに、DW-XCorrは手動設計されたパラメータフリーなモジュールであり、大規模データに対するオフライン学習の恩恵を十分に受けることができない。本研究では、大規模データにおけるオフライン学習を通じて、より良い意味的相関情報を捉えることを学習する、可学習なモジュール「非対称畳み込み(Asymmetric Convolution Module: ACM)」を提案する。DW-XCorrおよびその前身であるXCorrとは異なり、これらは単一の特徴マップを畳み込みカーネルとして扱うのに対し、本提案のACMは連結された特徴マップ上の畳み込み演算を、数学的に同等な2つの操作に分解する。これにより、連結時に特徴マップのサイズ(幅と高さ)が同一である必要がなくなる。ACMは、標準的な視覚特徴と併せて、バウンディングボックスのサイズなどの有用な事前情報を組み込むことが可能である。さらに、DW-XCorrまたはXCorrに基づく既存のシメイズ型トラッカーに容易に統合できる。その汎化能力を検証するため、代表的な3つのトラッカー(SiamFC、SiamRPN++、SiamBAN)にACMを統合した。実験結果から、提案するACMの有効性が明らかになった。6つの追跡ベンチマークにおいて、既存手法を上回る性能を達成した。特にLaSOTテストセットでは、ベースラインに対して成功度(AUC)で5.8%の顕著な向上を達成した。