2ヶ月前

UniChart: チャート理解と推論のための普遍的な視覚言語事前学習モデル

Masry, Ahmed ; Kavehzadeh, Parsa ; Do, Xuan Long ; Hoque, Enamul ; Joty, Shafiq
UniChart: チャート理解と推論のための普遍的な視覚言語事前学習モデル
要約

グラフはデータの分析、重要な洞察の可視化、およびデータに関する複雑な推論質問への回答に非常に一般的に使用されています。自然言語を使用したグラフベースのデータ分析を容易にするために、最近ではグラフ質問応答やグラフ要約などの下流タスクが導入されています。しかし、これらのタスクを解決するほとんどの方法は、チャートの構造(例えば、データがどのように視覚的に符号化され、チャート要素がどのように互いに関連しているか)を明示的にモデル化しようとしない言語タスクや視覚-言語タスクでの事前学習を使用しています。これを解決するために、まず多様なトピックと視覚スタイルをカバーする大規模なチャートコーパスを作成しました。次に、チャート理解と推論のための事前学習モデルであるUniChartを提案します。UniChartは、チャートに関連するテキスト、データ、および視覚要素をエンコードし、その後チャートに基づくテキストデコーダーを使用して自然言語で期待される出力を生成します。私たちは以下のいくつかのチャート固有の事前学習タスクを提案します:(i) バー、線などの視覚要素とデータをグラフから抽出する低レベルタスク、(ii) グラフ理解と推論スキルを獲得する高レベルタスク。実験結果によると、大規模なコーパス上でチャート固有の低レベルおよび高レベルタスクでの事前学習を行い、その後3つの下流タスクで微調整を行うことで、3つの下流タスクにおいて最先端の性能が得られました。