
要約
ビデオシーン検出は、意味的に凝縮されたシーンを取得するためにショットを時間的に連結することを目的とする。このタスクにおいて、ショット間のシーン識別可能な類似性を類似度評価によって捉えることが不可欠である。しかし、大多数の従来手法は、単純なショット対ショットの類似度に依存しており、同じシーンに属さないにもかかわらず類似したショットが誤って連結されてしまうことや、同一シーンに属する類似しないショットが適切に統合されないといった問題が生じる。本論文では、局所的な時間領域においてショットの意味的・時系列的近傍関係を精査することで、ショット間類似度にショットの文脈情報を組み込むためのNeighborNetを提案する。これにより、ショット間類似度は意味的・時系列的近傍に依存する類似度として再評価され、グラフ畳み込みネットワークを用いて文脈埋め込みをショット特徴に学習可能となる。その結果、学習されたショット特徴は、異なるシーンに属する類似ショット間の類似性を抑制するとともに、同一シーンに属する類似しないショット間の類似性を強化する。公開ベンチマークデータセット上での実験結果から、本手法であるNeighborNetはビデオシーン検出において顕著な性能向上を示し、公開されている最先端手法と比較して平均精度(AP)で少なくとも6%の優位性を達成した。コードは https://github.com/ExMorgan-Alter/NeighborNet にて公開されている。