推論ベースのチャートVQAにおけるデータ生成のためのツールテンプレートとLLMsの段階的統合

チャートやプロットなどのデータ可視化を理解するには、視覚的要素と数値情報の両方について推論を行う必要があります。現在のチャート視覚質問応答(chart VQA)モデルは、抽出型の質問に対しては優れた性能を発揮していますが、複雑な推論を要する質問に対しては依然として課題を抱えています。本研究では、推論能力の不足に取り組むためにデータ拡張(data augmentation)を活用します。大規模言語モデル(LLM)は、強力な推論能力を示すことが知られており、これを自動データアノテーターとして用い、チャート画像に対して質問・回答のアノテーションを生成する手法を提案します。本手法の鍵となるイノベーションは、「段階的合成(Synthesize Step-by-Step)」戦略です。この戦略では、LLMをベースとするデータ生成器が、複雑な質問を段階的な部分質問(推論プロセス)に分解する能力を学習し、その後、外部ツール(例:Python)を用いてこれらの部分質問から最終的な答えを導出します。この段階的な生成プロセスは、テンプレートベースのQA生成パイプラインにより生成された合成データ上で訓練されています。実験結果から、提案する段階的生成戦略の重要性が明確に示されました。LLMによるデータ拡張(LAMENDA)を用いて訓練することで、チャートVQAモデルの性能が著しく向上し、ChartQAおよびPlotQAデータセットにおいて、最先端の精度を達成しました。特に、ChartQAデータセットにおける人間が作成した質問(推論が強く求められる質問)において、従来の最先端手法の精度38%を54%まで向上させました。本研究が、合成データの潜在的価値を示し、推論が中心となるタスクにおけるLLMを活用したデータ拡張のさらなる探求を促進することを期待しています。