HyperAIHyperAI

Command Palette

Search for a command to run...

チャートベースの推論:LLMからVLMへの能力移転

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

概要

視覚言語モデル(VLMs)は、マルチモーダルタスクにおいてますます強力な性能を達成しています。しかし、特に小型のVLMでは推論能力が限られている一方で、大規模言語モデル(LLMs)の推論能力は多くの改善が見られています。本研究では、LLMからVLMへの能力移転技術を提案します。最近導入されたChartQAにおいて、当手法をChenら(2023)によって提案されたPaLI3-5B VLMに適用した場合、最先端の性能を達成し、さらにPlotQAとFigureQAでも大幅に性能が向上します。まず、チャート表現を改善するために、Liuら(2023)によって提案されたチャートからテーブルへの翻訳タスクの改良版を使用して事前学習ステージを継続します。次に、元の訓練データセットよりも20倍大きいデータセットの構築を提案します。一般的な推論能力と数値操作を改善するためには、チャートのテーブル表現を使用して推論トレースを合成します。最後に、Hsiehら(2023)によって導入されたマルチタスク損失関数を使用してモデルを微調整します。当研究で開発した変種モデルChartPaLI-5Bは、上流OCRシステムを使用せずに10倍以上の大型モデルであるPaLIX-55Bなどよりも優れた性能を示し、PaLI3-5Bベースラインと比較して推論時間は一定に保たれます。さらに単純な思考プログラムプロンプト(Chen et al., 2023)を使用して理由付けが洗練されると、当モデルは最近導入されたGemini UltraやGPT-4Vよりも優れた性能を示しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています