2ヶ月前
MatCha: 数理推論とチャートデレンダリングを用いた視覚言語事前学習の強化
Liu, Fangyu ; Piccinno, Francesco ; Krichene, Syrine ; Pang, Chenxi ; Lee, Kenton ; Joshi, Mandar ; Altun, Yasemin ; Collier, Nigel ; Eisenschlos, Julian Martin

要約
可視言語データ、例えばプロット、チャート、インフォグラフィックスは、人間の世界に広く存在しています。しかし、最先端のビジョン・ランゲージモデルはこれらのデータに対して十分な性能を発揮していません。本研究では、MatCha(Math reasoning and Chart derendering pretraining)を提案し、ビジュアル・ランゲージモデルがチャートやプロットと言語データを統合的にモデリングする能力を向上させることを目指します。具体的には、ビジュアル・ランゲージモデリングにおいて重要な能力であるプロットの分解と数値的推論に焦点を当てたいくつかの事前学習タスクを提案します。MatChaの事前学習は、最近提案された画像からテキストへの変換を行うビジョン・ランゲージモデルPix2Structから開始されます。PlotQAやChartQAなどの標準的なベンチマークにおいて、MatChaモデルは最先端の手法よりも最大で約20%高い性能を示しました。また、スクリーンショット、教科書の図表、ドキュメント内の図など他の領域への転移学習についても評価を行い、全体的に改善が見られました。これにより、MatChaの事前学習がより広範なビジュアル・ランゲージタスクにおいて有用であることが確認されました。