6ヶ月前

視覚質問応答

検索拡張生成

アプローチ／フレームワーク

マルチモーダル

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

概要

本稿では、世界知識を大規模メモリにエンコードし、そのメモリから関連情報を検索して知識集約型の質問に回答できるエンドツーエンド型の検索拡張型視覚言語モデル（REVEAL）を提案する。REVEALは、メモリ、エンコーダ、リトリーバ、ジェネレータの4つの主要な構成要素から構成される。大規模メモリは、統一されたエンコーダを用いて、画像-テキストペア、質問-回答ペア、知識グラフの三項組など、多様なマルチモーダル世界知識を統合的にエンコードする。リトリーバはメモリ内の最も関連性の高い知識エントリを検索し、ジェネレータは取得した知識を入力クエリと統合して出力を生成する。本手法の重要な特徴は、メモリ、エンコーダ、リトリーバ、ジェネレータが、膨大な量のデータ上でエンドツーエンドで事前学習されている点である。さらに、本手法は多様なマルチモーダル知識源を活用可能であり、これが顕著な性能向上をもたらすことが実証された。実験の結果、REVEALは視覚的質問応答（VQA）および画像キャプション生成において、既存の最先端手法を上回る性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

検索拡張生成

アプローチ／フレームワーク

マルチモーダル

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

概要

本稿では、世界知識を大規模メモリにエンコードし、そのメモリから関連情報を検索して知識集約型の質問に回答できるエンドツーエンド型の検索拡張型視覚言語モデル（REVEAL）を提案する。REVEALは、メモリ、エンコーダ、リトリーバ、ジェネレータの4つの主要な構成要素から構成される。大規模メモリは、統一されたエンコーダを用いて、画像-テキストペア、質問-回答ペア、知識グラフの三項組など、多様なマルチモーダル世界知識を統合的にエンコードする。リトリーバはメモリ内の最も関連性の高い知識エントリを検索し、ジェネレータは取得した知識を入力クエリと統合して出力を生成する。本手法の重要な特徴は、メモリ、エンコーダ、リトリーバ、ジェネレータが、膨大な量のデータ上でエンドツーエンドで事前学習されている点である。さらに、本手法は多様なマルチモーダル知識源を活用可能であり、これが顕著な性能向上をもたらすことが実証された。実験の結果、REVEALは視覚的質問応答（VQA）および画像キャプション生成において、既存の最先端手法を上回る性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています