2ヶ月前
CLIPのビデオハイライト検出への潜在能力を解き放つ
Han, Donghoon ; Seo, Seunghyeon ; Park, Eunhwan ; Nam, Seong-Uk ; Kwak, Nojun

要約
多モーダルモデルと大規模言語モデル(LLMs)は、オープンワールド知識の利用を革命化し、さまざまなタスクやアプリケーションにおける新たな可能性を解き放ちました。これらの領域の中で、特にビデオ領域はその能力により大きな恩恵を受けました。本論文では、Highlight-CLIP(HL-CLIP)という方法を紹介します。これは、多モーダルモデルに埋め込まれた事前学習された知識を利用することで、ビデオハイライト検出タスクにおいて優れた性能を発揮するように設計されています。単純に多モーダルエンコーダーを微調整し、当社が開発した革新的なサリエンシープーリング技術を組み合わせることで、ハイライト検出タスクにおける最新の性能であるQVHighlightベンチマークにおいて最高峰の結果を達成しました(当該研究時点での最良の知見に基づく)。