8ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Enxin Song Wenhao Chai Guanhong Wang Yucheng Zhang Haoyang Zhou Feiyang Wu Haozhe Chi Xun Guo Tian Ye Yanting Zhang

概要

最近、ビデオ基礎モデルと大規模言語モデルを統合してビデオ理解システムを構築することで、特定の事前定義された視覚タスクの制限を克服することが可能となっています。しかし、既存のシステムは非常に少ないフレーム数のビデオしか処理できません。長時間のビデオでは、計算の複雑さ、メモリコスト、および長期的な時間的連続性が追加の課題となっています。アトキンソン・シフリン記憶モデルを活用し、トランスフォーマー内のトークンを記憶の担い手として使用し、当社が特別に設計した記憶機構を組み合わせることで、これらの課題を克服する「ムービーチャット」を提案します。ムービーチャットは長時間ビデオ理解において最先端の性能を達成しており、その効果検証のために1,000本の長時間ビデオと14,000件の人手による注釈からなるMovieChat-1Kベンチマークも公開しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Enxin Song Wenhao Chai Guanhong Wang Yucheng Zhang Haoyang Zhou Feiyang Wu Haozhe Chi Xun Guo Tian Ye Yanting Zhang

概要

最近、ビデオ基礎モデルと大規模言語モデルを統合してビデオ理解システムを構築することで、特定の事前定義された視覚タスクの制限を克服することが可能となっています。しかし、既存のシステムは非常に少ないフレーム数のビデオしか処理できません。長時間のビデオでは、計算の複雑さ、メモリコスト、および長期的な時間的連続性が追加の課題となっています。アトキンソン・シフリン記憶モデルを活用し、トランスフォーマー内のトークンを記憶の担い手として使用し、当社が特別に設計した記憶機構を組み合わせることで、これらの課題を克服する「ムービーチャット」を提案します。ムービーチャットは長時間ビデオ理解において最先端の性能を達成しており、その効果検証のために1,000本の長時間ビデオと14,000件の人手による注釈からなるMovieChat-1Kベンチマークも公開しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています