6ヶ月前

視覚質問応答

検索拡張生成

自然言語処理

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao

概要

外部知識を活用する視覚質問応答（OK-VQA）は、エージェントが画像を理解し、インターネット全体から関連する知識を活用し、すべての情報を統合して質問に回答することを要求する。従来の手法では、まず画像と質問をマルチモーダル空間で統合するアプローチが採用されてきたが、この方法は膨大な外部知識とのさらなる統合に対して柔軟性に欠ける。本論文では、OK-VQAタスクに対する代替的な枠組みを提案する。この枠組みは、画像を単純なテキストに変換することで、自然言語空間内で知識の取得と生成型質問応答を可能にする。このアプローチは、巨大な知識ベースの規模と事前学習された言語モデルの豊かさを活用できる。提案する「Transform-Retrieve-Generate（TRiG）」フレームワークは、異なる画像からテキストへの変換モデルやテキストベースの知識ベースと即座に統合可能なプラグアンドプレイ型の設計である。実験結果により、本TRiGフレームワークは、すべての最先端の教師あり手法を11.1%以上の絶対的な差で上回ることが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

検索拡張生成

自然言語処理

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao

概要

外部知識を活用する視覚質問応答（OK-VQA）は、エージェントが画像を理解し、インターネット全体から関連する知識を活用し、すべての情報を統合して質問に回答することを要求する。従来の手法では、まず画像と質問をマルチモーダル空間で統合するアプローチが採用されてきたが、この方法は膨大な外部知識とのさらなる統合に対して柔軟性に欠ける。本論文では、OK-VQAタスクに対する代替的な枠組みを提案する。この枠組みは、画像を単純なテキストに変換することで、自然言語空間内で知識の取得と生成型質問応答を可能にする。このアプローチは、巨大な知識ベースの規模と事前学習された言語モデルの豊かさを活用できる。提案する「Transform-Retrieve-Generate（TRiG）」フレームワークは、異なる画像からテキストへの変換モデルやテキストベースの知識ベースと即座に統合可能なプラグアンドプレイ型の設計である。実験結果により、本TRiGフレームワークは、すべての最先端の教師あり手法を11.1%以上の絶対的な差で上回ることが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています