HyperAIHyperAI

Command Palette

Search for a command to run...

MovieChat+:長時間動画質問応答のための質問意識的なスパースメモリ

Enxin Song Wenhao Chai Tian Ye Jenq-Neng Hwang Xi Li Gaoang Wang

概要

近年、動画基礎モデルと大規模言語モデルを統合して動画理解システムを構築することで、特定の事前定義された視覚タスクに制限される問題を克服できる。しかし、従来の手法は複雑な空間時系列モジュールを採用するか、追加の認識モデルに依存して動画の時系列特徴を抽出する必要があり、短時間の動画においては良好な性能を発揮するものの、長時間動画では、長期的な時系列接続に伴う計算複雑性およびメモリコストが著しく増加するため、新たな課題が生じる。本研究では、Atkinson-Shiffrin記憶モデルを活用し、Transformerにおけるトークンを記憶の担い手として用いる一方で、独自に設計した記憶機構を組み合わせることで、これらの課題を克服する手法であるMovieChatを提案する。本手法は、追加のトレーナブルな時系列モジュールを導入することなく、事前学習済みの多モーダル大規模言語モデルを拡張し、ゼロショットアプローチにより長時間動画の理解を実現する。MovieChatは、長時間動画理解において最先端の性能を達成しており、1,000本の長時間動画、2,000件の時系列位置特定ラベル、14,000件の手動アノテーションを含むMovieChat-1Kベンチマークも同時に公開している。これにより、本手法の有効性を検証可能な環境が整備された。コードおよびデータセットは以下のURLから入手可能である:https://github.com/rese1f/MovieChat


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています