2ヶ月前
物体は消えない:単一フレームの物体位置予測によるビデオ物体検出
Xin Liu; Fatemeh Karimi Nejadasl; Jan C. van Gemert; Olaf Booij; Silvia L. Pintea

要約
ビデオ内の物体は通常、連続的ななめらかな動きで特徴付けられます。本研究では、連続的ななめらかな動きを以下の3つの方法で活用します。1) 物体の動きを追加の監視情報源として利用することで精度を向上させます。これは、静止キー画像から物体の位置を予測することによって得られます。2) 高コストの特徴量計算を全フレームの一部だけに行うことで効率性を向上させます。隣接するビデオフレームがしばしば冗長であるため、単一の静止キー画像に対してのみ特徴量を計算し、その後のフレームでの物体位置を予測します。3) アノテーションコストを削減します。ここでは、キー画像のみをアノテーションし、キー画像間のなめらかな疑似運動を利用します。4つのデータセット(ImageNet VID、EPIC KITCHENS-55、YouTube-BoundingBoxes、Waymo Open データセット)において、我々の手法は計算効率性、アノテーション効率性および平均精度(mean average precision)の改善点において最新技術と比較して優れた結果を示しています。当該ソースコードは https://github.com/L-KID/Videoobject-detection-by-location-anticipation で公開されています。