2ヶ月前

チャートベースの推論：LLMからVLMへの能力移転

Carbune, Victor ; Mansoor, Hassan ; Liu, Fangyu ; Aralikatte, Rahul ; Baechler, Gilles ; Chen, Jindong ; Sharma, Abhanshu

論文の詳細を見る

要約

視覚言語モデル（VLMs）は、マルチモーダルタスクにおいてますます強力な性能を達成しています。しかし、特に小型のVLMでは推論能力が限られている一方で、大規模言語モデル（LLMs）の推論能力は多くの改善が見られています。本研究では、LLMからVLMへの能力移転技術を提案します。最近導入されたChartQAにおいて、当手法をChenら（2023）によって提案されたPaLI3-5B VLMに適用した場合、最先端の性能を達成し、さらにPlotQAとFigureQAでも大幅に性能が向上します。まず、チャート表現を改善するために、Liuら（2023）によって提案されたチャートからテーブルへの翻訳タスクの改良版を使用して事前学習ステージを継続します。次に、元の訓練データセットよりも20倍大きいデータセットの構築を提案します。一般的な推論能力と数値操作を改善するためには、チャートのテーブル表現を使用して推論トレースを合成します。最後に、Hsiehら（2023）によって導入されたマルチタスク損失関数を使用してモデルを微調整します。当研究で開発した変種モデルChartPaLI-5Bは、上流OCRシステムを使用せずに10倍以上の大型モデルであるPaLIX-55Bなどよりも優れた性能を示し、PaLI3-5Bベースラインと比較して推論時間は一定に保たれます。さらに単純な思考プログラムプロンプト（Chen et al., 2023）を使用して理由付けが洗練されると、当モデルは最近導入されたGemini UltraやGPT-4Vよりも優れた性能を示しました。