2ヶ月前
MovieChat: 密集トークンから疎メモリへ - 長尺ビデオ理解のためのアプローチ
Enxin Song; Wenhao Chai; Guanhong Wang; Yucheng Zhang; Haoyang Zhou; Feiyang Wu; Haozhe Chi; Xun Guo; Tian Ye; Yanting Zhang; Yan Lu; Jenq-Neng Hwang; Gaoang Wang

要約
最近、ビデオ基礎モデルと大規模言語モデルを統合してビデオ理解システムを構築することで、特定の事前定義された視覚タスクの制限を克服することが可能となっています。しかし、既存のシステムは非常に少ないフレーム数のビデオしか処理できません。長時間のビデオでは、計算の複雑さ、メモリコスト、および長期的な時間的連続性が追加の課題となっています。アトキンソン・シフリン記憶モデルを活用し、トランスフォーマー内のトークンを記憶の担い手として使用し、当社が特別に設計した記憶機構を組み合わせることで、これらの課題を克服する「ムービーチャット」を提案します。ムービーチャットは長時間ビデオ理解において最先端の性能を達成しており、その効果検証のために1,000本の長時間ビデオと14,000件の人手による注釈からなるMovieChat-1Kベンチマークも公開しています。