Command Palette
Search for a command to run...
{Hervé Jégou Rita Cucchiara Matthijs Douze Lorenzo Baraldi}

要約
本論文では、動画の比較およびアライメントを実現する学習可能なアプローチを提案する。我々のアーキテクチャは、ニューラルネットワーク内における時系列マッチカーネルの構築と再考に基づいている。具体的には、フーリエ領域でパラメータ化された時間に敏感な類似度メトリクスに従い、2つのベクトル列間のスコアを最大化することで時系列アライメントを探索する新たな時系列層を提案する。この層は、局所化の精度と認識率の両方を考慮した三重損失(triplet loss)を最小化する時系列提案戦略により学習される。提案手法は、動画アライメント、コピー検出、イベント検索の各タスクにおいて評価された。比較的な設定下で、本手法は時系列動画アライメントおよび動画コピー検出のデータセットにおいて、従来の最先端技術を上回る性能を達成した。また、特定のイベント検索タスクにおいても、報告されている最高の結果を達成しつつ、動画の正確なアライメントを実現している。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| video-alignment-on-msu-video-alignment-and | TMK | Accuracy w/ 3 frames error (Hard): 0.0554 Accuracy w/ 3 frames error (Light): 0.0571 Accuracy w/ 3 frames error (Medium color): 0.0607 Accuracy w/ 3 frames error (Medium geometric): 0.0446 |
| video-retrieval-on-fivr-200k | LAMV | mAP (CSVR): 0.466 mAP (DSVR): 0.496 mAP (ISVR): 0.371 |