2ヶ月前

ViSiL: 細かい空間時間的なビデオ類似性学習

Giorgos Kordopatis-Zilos; Symeon Papadopoulos; Ioannis Patras; Ioannis Kompatsiaris

要約

本論文では、ViSiL（Video Similarity Learning）というアーキテクチャを紹介します。このアー�キテクチャは、ビデオ間の細かい空間時間関係を考慮します。これらの関係は、従来のビデオ検索手法では、類似度推定前に全体のフレームやさらには全体のビデオをベクトル記述子に埋め込むことで失われることが一般的です。対照的に、私たちの提案する畳み込みニューラルネットワーク（CNN）ベースの手法は、精緻なフレーム間類似度行列からビデオ間類似度を計算するために訓練されています。これにより、フレーム内の関係とフレーム間の関係の両方が考慮されます。提案手法においては、地域CNNフレーム特徴量に対してテンソルドット（TD）を適用し、その後チャムファー類似度（CS）を使用してペアワイズフレーム類似度を推定します。これにより、フレーム間の類似度計算前の特徴量集約が回避されます。次に、すべてのビデオフレーム間の類似度行列が4層CNNに入力され、その後チャムファー類似度（CS）を使用してビデオ間類似度スコアに要約されます。これにより、ビデオ間の類似度計算前の特徴量集約が回避されるとともに、一致するフレームシーケンス間の一時的な類似パターンが捉えられます。我々はトリプレット損失スキーマを使用して提案ネットワークを訓練し、4つの異なるビデオ検索問題に関する5つの公開ベンチマークデータセットで評価を行いました。その結果、現行最先端技術と比較して大幅な改善が示されました。ViSiLの実装は公開されています。