Command Palette
Search for a command to run...
Memory-QA: Beantwortung von Erinnerungsfragen basierend auf multimodalen Erinnerungen
Hongda Jiang Xinyuan Zhang Siddhant Garg Rishab Arora Shiun-Zu Kuo et al

Abstract
Wir führen Memory-QA ein, eine neuartige Aufgabe aus der realen Welt, bei der Fragen zur Erinnerung an visuelle Inhalte aus zuvor gespeicherten multimodalen Erinnerungen beantwortet werden müssen. Diese Aufgabe stellt besondere Herausforderungen dar, darunter die Erzeugung aufgabenorientierter Erinnerungen, die effektive Nutzung zeitlicher und räumlicher Informationen innerhalb der Erinnerungen sowie die Fähigkeit, auf mehrere Erinnerungen gleichzeitig zurückzugreifen, um eine Erinnerungsfrage zu beantworten. Um diesen Herausforderungen zu begegnen, schlagen wir einen umfassenden Pipeline-Ansatz namens Pensieve vor, der spezifische Erinnerungsverstärkung, zeithafte und ortssensitive Mehrsignalerfassung sowie Fine-Tuning für mehrfache Erinnerungsfragen integriert. Wir haben eine multimodale Benchmark erstellt, um verschiedene reale Herausforderungen dieser Aufgabe zu veranschaulichen, und zeigen, dass Pensieve gegenüber aktuellen Spitzenlösungen eine überlegene Leistung erzielt (bis zu 14 % höhere Genauigkeit bei der Fragebeantwortung).
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.