Command Palette
Search for a command to run...
Hongda Jiang Xinyuan Zhang Siddhant Garg Rishab Arora Shiun-Zu Kuo et al

초록
우리는 이전에 저장된 다중모달 기억에서 시각 콘텐츠에 대한 기억 질문에 답하는 새로운 실세계 과제인 Memory-QA를 제안한다. 이 과제는 과제 지향적 기억 생성, 기억 내 시간 및 위치 정보의 효과적 활용, 그리고 기억 질문에 답하기 위해 다수의 기억을 종합적으로 활용할 수 있는 능력 등 고유한 도전 과제를 수반한다. 이러한 도전 과제를 해결하기 위해, 기억 특화 증강(memory-specific augmentation), 시간 및 위치 인지형 다중 신호 검색(time- and location-aware multi-signal retrieval), 다중 기억 기반 QA 미세조정(multi-memory QA fine-tuning)을 통합한 포괄적인 파이프라인인 Pensieve를 제안한다. 본 연구에서는 이 과제의 다양한 실제적 과제를 보여주기 위해 다중모달 벤치마크를 구축하였으며, 기존 최고 수준의 솔루션 대비 Pensieve의 우수한 성능을 입증하였다(질의응답 정확도에서 최대 14% 향상).