7ヶ月前

視覚質問応答

マルチモーダル

オブジェクト検出

マルチモーダル

コンピュータビジョン

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

概要

最近、ビジュアルクエスチョンアswering（VQA）タスクは人工知能の分野でますます注目を集めています。既存のVQA手法は主に視覚的注意機構を採用し、入力された質問と対応する画像領域を関連付けて効果的な回答を行うことを目指しています。このうち、自由形式の領域に基づく注意機構と検出ベースの注意機構が主に研究されており、前者は自由形式の画像領域に注目し、後者は事前に指定された検出ボックスの領域に注目します。私たちは、これらの2つの注意機構が補完的な情報を提供できることから、より効果的にVQA問題を解決するために統合されるべきであると考えています。本論文では、両方の注意機構を統合した新しい深層ニューラルネットワークを提案します。提案したフレームワークは、自由形式の画像領域、検出ボックス、および質問表現からの特徴量をマルチモーダル乗法特徴量埋め込みスキームを通じて効果的に融合し、質問に関連する自由形式の画像領域と検出ボックスに共同して注目することで、より正確な回答を行うことを可能にします。提案手法は公開されている2つのデータセットCOCO-QAとVQAで広範囲に評価され、最先端の手法を上回る性能を示しました。ソースコードはhttps://github.com/lupantech/dual-mfa-vqa で入手可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

マルチモーダル

オブジェクト検出

マルチモーダル

コンピュータビジョン

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

概要

最近、ビジュアルクエスチョンアswering（VQA）タスクは人工知能の分野でますます注目を集めています。既存のVQA手法は主に視覚的注意機構を採用し、入力された質問と対応する画像領域を関連付けて効果的な回答を行うことを目指しています。このうち、自由形式の領域に基づく注意機構と検出ベースの注意機構が主に研究されており、前者は自由形式の画像領域に注目し、後者は事前に指定された検出ボックスの領域に注目します。私たちは、これらの2つの注意機構が補完的な情報を提供できることから、より効果的にVQA問題を解決するために統合されるべきであると考えています。本論文では、両方の注意機構を統合した新しい深層ニューラルネットワークを提案します。提案したフレームワークは、自由形式の画像領域、検出ボックス、および質問表現からの特徴量をマルチモーダル乗法特徴量埋め込みスキームを通じて効果的に融合し、質問に関連する自由形式の画像領域と検出ボックスに共同して注目することで、より正確な回答を行うことを可能にします。提案手法は公開されている2つのデータセットCOCO-QAとVQAで広範囲に評価され、最先端の手法を上回る性能を示しました。ソースコードはhttps://github.com/lupantech/dual-mfa-vqa で入手可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています