2ヶ月前

分類回帰によるグラフ理解

Levy, Matan ; Ben-Ari, Rami ; Lischinski, Dani
分類回帰によるグラフ理解
要約

チャート質問応答(CQA)は、チャートの理解を評価するために使用されるタスクであり、自然画像の理解とは根本的に異なります。CQAでは、チャート内のテキスト要素と視覚要素の関係を分析し、一般的な質問に答えたり数値を推定したりする必要があります。既存の大多数のCQAデータセットやモデルは、しばしば人間の性能を超えることを可能にする単純化された仮定に基づいています。本研究では、この結果に対処し、分類と回帰を同時に学習する新しいモデルを提案します。我々の言語-視覚システムは、共注意トランスフォーマーを使用して、質問とテキスト要素との間の複雑な現実世界での相互作用を捉えます。現実的なPlotQAデータセットを用いた広範な実験で設計の妥当性を検証し、以前の手法よりも大幅に優れた性能を示すとともに、FigureQAでも競争力のある性能を発揮しています。特に、ボキャブラリー外の回答が必要となる現実的な質問に対して回帰を行う場合に、我々のモデルは適していることが示されています。

分類回帰によるグラフ理解 | 最新論文 | HyperAI超神経