HyperAIHyperAI

Command Palette

Search for a command to run...

ビデオ-ChatGPT: 大規模なビジョンと言語モデルを用いた詳細なビデオ理解に向けて

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

概要

大規模言語モデル(LLM)を駆動する会話エージェントは、視覚データとの新たなインタラクション方法を提供しています。画像ベースの会話モデルに関する初期的な試みが存在していましたが、本研究では未十分に探索されていない\emph{ビデオベースの会話}分野に焦点を当て、Video-ChatGPTを導入します。これは、ビデオ適応型の視覚エンコーダとLLMを統合したマルチモーダルモデルです。生成されたモデルは、ビデオについて詳細な会話を理解し生成することができます。私たちは、手動および半自動パイプラインによって取得され、容易に拡張可能でラベルノイズに強い10万組のビデオ指示ペアからなる新しいデータセットを紹介します。また、ビデオベースの対話モデルに対する定量的な評価フレームワークを開発し、これらのモデルの強みと弱みを客観的に分析しました。コード: https://github.com/mbzuai-oryx/Video-ChatGPT


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています