7ヶ月前

視覚質問応答

オブジェクト検出

マルチモーダル

コンピュータビジョン

Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang

概要

上位から下位への視覚的注意メカニズムは、画像のキャプション生成と視覚的な質問応答（VQA）において広く利用されており、詳細な画像理解を可能にするための細かい分析や複数段階の推論を実現しています。本研究では、物体やその他の注目すべき画像領域のレベルで注意を計算できるようにする、底辺から上位へと上位から下位への注意メカニズムを組み合わせた新しいアプローチを提案します。これは、注意が考慮される自然な基盤です。当方針では、底辺からのメカニズム（Faster R-CNNに基づく）が画像領域を提案し、それぞれに関連する特徴ベクトルを持ちます。一方、上位からのメカニズムがこれらの特徴の重み付けを行います。このアプローチを画像のキャプション生成に適用した結果、MSCOCOテストサーバーでの評価で新たな最先端の成果を達成し、CIDEr / SPICE / BLEU-4スコアはそれぞれ117.9、21.5、36.9となりました。本手法の汎用性を示すために、同じアプローチをVQAに適用したところ、2017年のVQAチャレンジで第1位を獲得しました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

オブジェクト検出

マルチモーダル

コンピュータビジョン

Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang

概要

上位から下位への視覚的注意メカニズムは、画像のキャプション生成と視覚的な質問応答（VQA）において広く利用されており、詳細な画像理解を可能にするための細かい分析や複数段階の推論を実現しています。本研究では、物体やその他の注目すべき画像領域のレベルで注意を計算できるようにする、底辺から上位へと上位から下位への注意メカニズムを組み合わせた新しいアプローチを提案します。これは、注意が考慮される自然な基盤です。当方針では、底辺からのメカニズム（Faster R-CNNに基づく）が画像領域を提案し、それぞれに関連する特徴ベクトルを持ちます。一方、上位からのメカニズムがこれらの特徴の重み付けを行います。このアプローチを画像のキャプション生成に適用した結果、MSCOCOテストサーバーでの評価で新たな最先端の成果を達成し、CIDEr / SPICE / BLEU-4スコアはそれぞれ117.9、21.5、36.9となりました。本手法の汎用性を示すために、同じアプローチをVQAに適用したところ、2017年のVQAチャレンジで第1位を獲得しました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

画像キャプショニングと視覚的質問応答におけるボトムアップおよびトップダウンの注意 | 記事 | HyperAI超神経