
要約
都市部の混雑した環境において、物体検出・セグメンテーション・トラッキングを目的とした従来の手法は、重度の隠蔽(オクルージョン)が生じると性能が著しく低下する。実際のオクルージョンをラベル付けしたデータは稀であり(大規模データセットですら限られている)、一方で合成データはドメインギャップを生じるため、オクルージョンを明示的にモデル化し学習することが困難である。本研究では、街角を数週間、数か月、あるいは数年にわたり観測する固定型ウェブカメラのタイムラプス画像という、広く利用可能な大規模なデータソースを活用し、リアルと合成の両者の長所を生かした自動オクルージョン監視手法を提案する。新しく構築したデータセット「Watch and Learn Time-lapse(WALT)」は、4Kおよび1080pの合計12台のカメラが1年間にわたり都市環境を記録したものである。本研究では、この実データを独創的な方法で活用し、複数の視点において未隠蔽の物体を自動的に抽出した後、同じ視点に合成してオクルージョンを生成する。この長期的な自己教師付き学習アプローチにより、アモーダル(非視覚的)ネットワークが「物体-遮蔽体-隠蔽された物体」の階層表現を学習可能となる。また、未隠蔽物体の発見を高速化する手法を提示し、その発見の信頼度と、隠蔽物体の学習速度・精度との関係を明らかにする。数日間の自動学習を経た後、本手法は人間によるラベル付きアモーダルアプローチに比べ、隠蔽された人間や車両の検出・セグメンテーションにおいて顕著な性能向上を示した。