2ヶ月前
Inst-IT: 明示的な視覚プロンプト指示調整を用いたマルチモーダルインスタンス理解の向上
Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang

要約
大規模マルチモーダルモデル(LMMs)は、指示微調整の進歩により、重要な進展を遂げています。しかし、既存のモデルは全体的なレベルで画像や動画を理解できる一方で、より洗練された理解と整合性が求められるインスタンスレベルの理解にはまだ苦戦しています。インスタンスレベルの理解は重要であり、私たちが最も関心を持つ特定の要素に焦点を当てるからです。興味深いことに、既存の研究では、明確な視覚的ヒントが提供されると最先端のLMMsが強力なインスタンス理解能力を示すことが見出されています。この研究成果に触発されて、我々はGPT-4oを活用した自動アノテーションパイプラインを導入し、明確な視覚的プロンプトを通じて画像や動画からインスタンスレベルの情報を抽出する手法を開発しました。このパイプラインに基づいて、我々はInst-ITというソリューションを提案します。これは、明確な視覚的プロンプトによる指示微調整を通じてLMMsのインスタンス理解能力を向上させるものです。Inst-ITは、マルチモーダルなインスタンスレベル理解の診断を行うためのベンチマーク、大規模な指示微調整データセット、および既存のLMMsの空間時間的なインスタンス理解能力を効果的に向上させる継続的な指示微調整トレーニングパラダイムから構成されています。実験結果によれば、Inst-ITによって我々のモデルはInst-IT Benchにおいて優れた性能を達成するとともに、一般的な画像や動画理解ベンチマークでも大幅な改善が見られました。これにより、我々のデータセットがインスタンスレベルの理解だけでなく、一般的な画像や動画認識能力全体も強化していることが明らかになりました。