HyperAIHyperAI

Command Palette

Search for a command to run...

半パラメトリックなビデオ埋め込みテキスト生成

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

概要

効率的な動画・言語モデリングは、膨大かつ場合によっては取り扱いが困難な動画フレーム数を考慮する必要がある。アテンション機構をはじめとするパラメトリックアプローチは、動画の長さが増すにつれて計算コストが二次的に増大するため、必ずしも最適とは言えない。そのため、従来の研究では、動画の効率的表現のため、オフラインでの特徴抽出やフレームサンプリングに依存し、短い動画クリップにおけるクロスモーダルモデリングに焦点を当てていた。本論文では、長時間の未編集動画を対象としたスケーラブルな動画・言語モデリングを実現する新たな視点として、半パラメトリックな動画基盤テキスト生成モデルであるSeViTを提案する。SeViTは動画を外部データストアとして扱い、与えられたクエリに応じてデータストアから関連する少数のフレームを非パラメトリックなフレームリトリーバーで選択し、その後、ラテンフェュージョン手法を用いてクエリとフレームを効果的に統合するパラメトリックな生成器によって処理を行う。実験結果から、本手法は長時間動画や因果的動画理解において顕著な優位性を示すことが明らかになった。さらに、4つの動画・言語データセットにおいて、最新の最先端性能を達成しており、iVQA(+4.8)、Next-QA(+6.9)、ActivityNet-QA(+4.8)において精度で、MSRVTT-CaptionではCIDErスコアでそれぞれ新しい最良記録を更新した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
半パラメトリックなビデオ埋め込みテキスト生成 | 記事 | HyperAI超神経