HyperAIHyperAI

Command Palette

Search for a command to run...

データ可視化に関する質問への効率的なバイモーダル融合を用いた回答

Kushal Kafle Robik Shrestha Brian Price Scott Cohen Christopher Kanan

概要

チャート質問応答(CQA)は、アルゴリズムが棒グラフ、円グラフ、折れ線グラフなどのデータ可視化に関する質問に答える新規のビジュアル質問応答(VQA)タスクです。CQAは、自然画像VQAアルゴリズムが欠いている能力を必要とします:微細な測定、光学的文字認識(OCR)、および質問と回答の両方における語彙外の単語の処理。現状の最先端VQAアルゴリズムは、このタスクに対して改良なしでは低性能となります。本稿では、画像と言語の並列再帰的融合(Parallel Recurrent Fusion of Image and Language: PReFIL)という新しいCQAアルゴリズムを提案します。PReFILはまず、質問と画像特徴を融合して双モーダル埋め込みを学習し、次にこれらの学習済み埋め込みを賢明に集約して与えられた質問に答えます。その単純さにもかかわらず、PReFILはFigureQAおよびDVQAデータセットにおいて既存の最先端システムや人間基準を大幅に上回ります。さらに、PReFILがチャートに関する一連の質問を通じてテーブルを再構築できることが示されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています