HyperAIHyperAI

Command Palette

Search for a command to run...

ViLA:動画質問応答のための効率的な動画-言語アライメント

Xijun Wang Junbang Liang Chun-Kai Wang Kenan Deng Yu Lou Ming Lin Shan Yang

概要

本研究では、効率的な動画-言語アライメント(Video-Language Alignment: ViLA)ネットワークを提案する。本研究で提唱するViLAモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントを統合的に解決する。ViLAネットワークでは、新たに学習可能なテキスト誘導型フレーム・プロンプター(text-guided Frame-Prompter)と、新たなクロスモーダル蒸留モジュール(QFormer-Distiller)を設計した。事前学習された大規模な画像-言語モデルは、視覚的質問応答(Visual Question Answering: VQA)などの課題において有望な成果を示している。しかし、こうした大規模な画像-言語モデルを動画-言語アライメントに適応する際、効率的かつ効果的に動画フレームをサンプリングする方法は依然として大きな課題である。従来手法と比較して、本ViLAモデルは重要コンテンツを含むキーフレームを適切に選択する能力を有しており、NExT-QA Temporalで推論遅延を+3.3%削減しつつ、3.0倍の高速化を実現した。全体として、本ViLAネットワークは動画質問応答ベンチマークにおいて最先端の手法を上回る性能を示した。STAR Interactionでは+4.6%、STAR平均では+2.2%の精度向上を達成し、3.0倍の高速化を実現した。また、VLEPデータセットにおいて、本モデルの2フレームアプローチがSeViLAの4フレームアプローチを上回り、4.2倍の高速化を達成した。コードは https://github.com/xijun-cs/ViLA にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています