8ヶ月前

視覚質問応答

マルチモーダル

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

概要

可視言語データ、例えばプロット、チャート、インフォグラフィックスは、人間の世界に広く存在しています。しかし、最先端のビジョン・ランゲージモデルはこれらのデータに対して十分な性能を発揮していません。本研究では、MatCha（Math reasoning and Chart derendering pretraining）を提案し、ビジュアル・ランゲージモデルがチャートやプロットと言語データを統合的にモデリングする能力を向上させることを目指します。具体的には、ビジュアル・ランゲージモデリングにおいて重要な能力であるプロットの分解と数値的推論に焦点を当てたいくつかの事前学習タスクを提案します。MatChaの事前学習は、最近提案された画像からテキストへの変換を行うビジョン・ランゲージモデルPix2Structから開始されます。PlotQAやChartQAなどの標準的なベンチマークにおいて、MatChaモデルは最先端の手法よりも最大で約20%高い性能を示しました。また、スクリーンショット、教科書の図表、ドキュメント内の図など他の領域への転移学習についても評価を行い、全体的に改善が見られました。これにより、MatChaの事前学習がより広範なビジュアル・ランゲージタスクにおいて有用であることが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

視覚質問応答

マルチモーダル

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

概要

可視言語データ、例えばプロット、チャート、インフォグラフィックスは、人間の世界に広く存在しています。しかし、最先端のビジョン・ランゲージモデルはこれらのデータに対して十分な性能を発揮していません。本研究では、MatCha（Math reasoning and Chart derendering pretraining）を提案し、ビジュアル・ランゲージモデルがチャートやプロットと言語データを統合的にモデリングする能力を向上させることを目指します。具体的には、ビジュアル・ランゲージモデリングにおいて重要な能力であるプロットの分解と数値的推論に焦点を当てたいくつかの事前学習タスクを提案します。MatChaの事前学習は、最近提案された画像からテキストへの変換を行うビジョン・ランゲージモデルPix2Structから開始されます。PlotQAやChartQAなどの標準的なベンチマークにおいて、MatChaモデルは最先端の手法よりも最大で約20%高い性能を示しました。また、スクリーンショット、教科書の図表、ドキュメント内の図など他の領域への転移学習についても評価を行い、全体的に改善が見られました。これにより、MatChaの事前学習がより広範なビジュアル・ランゲージタスクにおいて有用であることが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています