2ヶ月前
DePlot: プロットからテーブルへの変換による一発的な視覚言語推論
Liu, Fangyu ; Eisenschlos, Julian Martin ; Piccinno, Francesco ; Krichene, Syrine ; Pang, Chenxi ; Lee, Kenton ; Joshi, Mandar ; Chen, Wenhu ; Collier, Nigel ; Altun, Yasemin

要約
視覚言語、例えばチャートやプロットは、人間の世界に普遍的に存在しています。チャートやプロットを理解するには、強い推論能力が必要です。これまでの最先端(SOTA)モデルは、少なくとも数万もの訓練例を必要とし、特に複雑な人間が書いたクエリに対してその推論能力はまだ大幅に制限されています。本論文では、視覚言語の推論に対する初めての一発学習(one-shot)ソリューションを提案します。視覚言語の推論課題を2つのステップに分解しました:(1) プロットからテキストへの翻訳、および (2) 翻訳されたテキスト上の推論。この方法の鍵となるのは、プロットやチャートの画像を線形テーブルに翻訳するモダリティ変換モジュールで、これを DePlot と呼びます。DePlot の出力は、事前学習された大規模言語モデル(LLM)に直接入力できるため、LLM の少発学習(few-shot)推論能力を利用することができます。DePlot を得るためには、プロットからテーブルへのタスクを統一したフォーマットと指標によって標準化し、このタスクに対して DePlot をエンドツーエンドで訓練します。DePlot はその後、プラグアンドプレイ形式で LLM とともにそのまま使用できます。28,000以上のデータポイントで微調整されたSOTAモデルと比較して、一発学習による DePlot+LLM はチャートQAタスクの人間が書いたクエリにおいて微調整済みSOTAよりも24.0%の改善を達成しています。