4ヶ月前

視覚質問応答

検索拡張生成

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Hongda Jiang Xinyuan Zhang Siddhant Garg Rishab Arora Shiun-Zu Kuo et al

概要

我々は、以前に蓄積されたマルチモーダルな記憶から視覚コンテンツに関する想起質問に答えるという、現実世界に即した新しいタスク「Memory-QA」を紹介する。このタスクは、タスク指向の記憶の構築、記憶内に含まれる時系列情報および場所情報の効果的な活用、および複数の記憶を統合して想起質問に答える能力といった、特有の課題を伴う。これらの課題に対応するため、記憶特有の拡張、時系列および場所に意識的なマルチシグナル検索、複数記憶を用いたQAのファインチューニングを統合した包括的なパイプライン「Pensieve」を提案する。本研究では、このタスクにおけるさまざまな現実的な課題を示すためのマルチモーダルベンチマークを構築し、Pensieveが最先端の手法を上回る優れた性能を発揮することを示した（QA精度において最大14%の向上）。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

視覚質問応答

検索拡張生成

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Hongda Jiang Xinyuan Zhang Siddhant Garg Rishab Arora Shiun-Zu Kuo et al

概要

我々は、以前に蓄積されたマルチモーダルな記憶から視覚コンテンツに関する想起質問に答えるという、現実世界に即した新しいタスク「Memory-QA」を紹介する。このタスクは、タスク指向の記憶の構築、記憶内に含まれる時系列情報および場所情報の効果的な活用、および複数の記憶を統合して想起質問に答える能力といった、特有の課題を伴う。これらの課題に対応するため、記憶特有の拡張、時系列および場所に意識的なマルチシグナル検索、複数記憶を用いたQAのファインチューニングを統合した包括的なパイプライン「Pensieve」を提案する。本研究では、このタスクにおけるさまざまな現実的な課題を示すためのマルチモーダルベンチマークを構築し、Pensieveが最先端の手法を上回る優れた性能を発揮することを示した（QA精度において最大14%の向上）。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています