8ヶ月前

概要

最近の大型言語モデル（Large Language Models: LLM）の進歩は、画像言語対話エージェントにおける様々な進展を促していますが、効果的なビデオベースの対話システムの構築方法についてはまだ研究が進められています。LLMと視覚基盤の広大なスケールを考えると、有効な時間軸モデリングに必要なGPUメモリが最小限しか残されていないという問題があります。これは、ビデオを理解しフィードバックを提供する上で重要な要素です。この課題に対処するために、私たちはブランチング・テンポラル・アダプター（Branching Temporal Adapter: BT-Adapter）という新しい手法を提案します。BT-Adapterは、事前学習済みの視覚エンコーダーとともに使用できるプラグイン型の時間軸モデリングブランチであり、基盤を凍結したまま調整することができます。一度だけ事前学習することで、BT-AdapterはこのバージョンのCLIPを使用するすべての画像対話モデルにシームレスに統合され、ビデオ指示なしでビデオ会話を可能にします。さらに、私たちはBT-Adapter専用に設計された訓練タスクを持つ独自の非対称トークンマスキング戦略を開発しました。これにより、より速い収束と優れた結果が得られます。BT-Adapterのおかげで、既存のマルチモーダル対話モデルに強力なビデオ理解能力を付与することが可能になり、過度なGPUコストを伴うことなく実現できます。特別な装飾や仕掛けなしで、BT-Adapterは以下の成果を達成しています。（1）数千時間少ないGPU時間を使用して様々なビデオタスクでの最先端の一発学習結果を達成しています。（2）ビデオ指示による調整を行わずに現在のビデオチャットボットよりも優れた性能を示しています。（3）ビデオ指示による調整を行うことでビデオチャットにおける最先端結果を達成し、以前のSOTA（State of The Art）よりも大幅に優れています。