HyperAIHyperAI

Command Palette

Search for a command to run...

イテレーティブなビデオ・テキスト共同トークン化を用いたビデオ質問応答

AJ Piergiovanni Kairo Morton Weicheng Kuo Michael S. Ryoo Anelia Angelova

概要

動画質問応答は、言語入力、動画フレーム内の視覚的情報、および動画内で発生する出来事に関する時間的情報を統合的に理解する必要がある挑戦的なタスクである。本論文では、複数の動画入力を用い、新たな動画・テキスト反復的コトークン化(co-tokenization)手法を導入した、動画質問応答用の新規マルチストリーム動画エンコーダーを提案する。このモデルは、MSRVTT-QA、MSVD-QA、IVQAなど複数のデータセット上で実験評価が行われ、従来の最先端手法を大きく上回る性能を達成した。同時に、モデルの必要GFLOPsは150~360からわずか67に削減され、非常に効率的な動画質問応答モデルを実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
イテレーティブなビデオ・テキスト共同トークン化を用いたビデオ質問応答 | 記事 | HyperAI超神経