
要約
自己教師ありの高密度追跡(dense tracking)に対する最近の関心は急速な進展をもたらしたが、依然として教師あり手法に比べて性能は大きく及ばない状況にある。本研究では、一切のアノテーションを用いない動画データ上で学習された高密度追跡モデルを提案する。このモデルは既存のベンチマークにおいて、従来の自己教師あり手法を15%以上の大幅な差で上回り、教師あり手法と同等の性能を達成した。本論文ではまず、自己教師あり学習と再構成損失に用いられる従来の選択肢を包括的な実験を通じて再評価し、最適な選択肢を明確に解明した。第二に、アーキテクチャに重要な記憶コンポーネントを追加することで、既存手法をさらに改善した。第三に、大規模な半教師あり動画像オブジェクトセグメンテーション(すなわち高密度追跡)のベンチマークを設定し、新たな評価指標「汎化能(generalizability)」を提案した。本研究の第一および第二の貢献により、標準的な高密度追跡評価指標において、初めて教師あり手法と競合可能な自己教師ありネットワークを実現した。また、汎化能を評価した結果、自己教師ありアプローチが多数の教師あり手法を上回っていることが示された。本研究では、この新たな汎化能指標が高密度追跡の実世界における実用シナリオをより適切に捉えるものであり、本研究分野に対する新たな関心を喚起すると確信している。