PlotQA: 科学プロット上の推論

既存のプロットに対する推論用合成データセット(FigureQA、DVQA)には、データラベルの変動性、実数値データ、または複雑な推論質問が含まれていません。したがって、これらのデータセット向けに提案されたモデルは、プロット上の推論の課題を完全に解決していません。特に、これらのモデルでは答えが小さな固定サイズの語彙か画像内のバウンディングボックスから得られるという前提となっています。しかし、実際にはこの前提は非現実的であり、多くの質問は推論を必要とするため、答えは小さな固定サイズの語彙にも画像内にも現れない実数値であることがあります。本研究では、既存のデータセットと実世界のプロットとの間にあるギャップを埋めることを目指しています。具体的には、PlotQAを提案します。これは224,377個の実世界データ源からのプロットに対して2890万組の質問-回答ペアを持つデータセットで、質問はクラウドソーシングによる質問テンプレートに基づいています。さらに、PlotQAにおける語彙外(OOV)質問の80.76%は答えが固定語彙に含まれていないものです。既存モデルのPlotQA上での分析結果によると、これらのモデルはOOV質問に対処できません:当社のデータセットにおける全体的な精度は一桁台です。これらのモデルがそのような質問のために設計されていなかったことを考えれば、これは驚くべきことではありません。より包括的なモデルを目指し、固定語彙およびOOV質問に対応できるようハイブリッドアプローチを提案します:特定の質問は固定的な語彙から答えを選択するか、あるいは予測されたプロット内のバウンディングボックスから抽出することで回答します。一方で他の質問は視覚要素を検出して生成された構造化テーブルを使用するテーブル質問回答エンジンによって回答されます。既存のDVQAデータセットにおいて当社のモデルは58%の精度を達成しており、最高報告精度46%よりも大幅に改善しています。またPlotQAにおいて当社のモデルは22.52%の精度を達成しており、最先端技術よりも著しく優れています。