Command Palette
Search for a command to run...
Hongda Jiang Xinyuan Zhang Siddhant Garg Rishab Arora Shiun-Zu Kuo et al

要約
我々は、以前に蓄積されたマルチモーダルな記憶から視覚コンテンツに関する想起質問に答えるという、現実世界に即した新しいタスク「Memory-QA」を紹介する。このタスクは、タスク指向の記憶の構築、記憶内に含まれる時系列情報および場所情報の効果的な活用、および複数の記憶を統合して想起質問に答える能力といった、特有の課題を伴う。これらの課題に対応するため、記憶特有の拡張、時系列および場所に意識的なマルチシグナル検索、複数記憶を用いたQAのファインチューニングを統合した包括的なパイプライン「Pensieve」を提案する。本研究では、このタスクにおけるさまざまな現実的な課題を示すためのマルチモーダルベンチマークを構築し、Pensieveが最先端の手法を上回る優れた性能を発揮することを示した(QA精度において最大14%の向上)。