HyperAIHyperAI

Command Palette

Search for a command to run...

大規模言語モデルからビデオ表現を学習する

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

概要

私たちはLaViLa(ラビラ)、大規模言語モデル(LLMs)を活用して映像言語表現を学習する新しい手法を紹介します。事前学習されたLLMsを視覚入力に条件付けし、それらを微調整することで自動的な動画ナレーターを作成します。私たちの自動生成されたナレーションは、長時間の動画に対する密なカバレッジ、視覚情報とテキストのより良い時間的同期、そしてテキストの多様性が大幅に向上しているという数々の利点を持っています。これらの追加の自動生成ナレーションと共に対照的に学習した動画-テキスト埋め込みは、ゼロショットおよび微調整設定において、複数の一人称および三人称動画タスクで従来の最先端技術を上回ります。特に注目に値するのは、EGTEA分類タスクとEpic-Kitchens-100多重インスタンス検索ベンチマークでLaViLaが絶対的な改善率10.1%と5.9%を達成したことです。さらに、Ego4Dデータセットから半分のナレーションのみを使用して訓練されたLaViLaは、全データセットで訓練されたベースラインモデルを上回り、事前学習データやモデルサイズの増加に伴う正規的なスケーリング特性も示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています