9日前

CLIPを用いた動画検索のためのシンプルなフレームワーク

Jesús Andrés Portillo-Quintero, José Carlos Ortiz-Bayliss, Hugo Terashima-Marín
CLIPを用いた動画検索のためのシンプルなフレームワーク
要約

ビデオ検索は、テキストクエリとビデオを相互に照合するという課題を含む難しいタスクである。既存の多くの方針は、ユーザーによるアノテーションに依存している。このアプローチは単純ではあるが、実際の現場では常に実行可能とは限らない。本研究では、こうしたアノテーションを必要とせずにビデオ表現を取得するために、言語-画像モデルであるCLIPの応用を検討した。このモデルは、画像とテキストを比較可能な共通の埋め込み空間を学習することを目的として明示的に訓練されている。本稿で提示する多様な技術を用いて、CLIPの適用範囲をビデオに拡張した結果、MSR-VTTおよびMSVDのベンチマークにおいて、最先端の性能を達成した。