Command Palette
Search for a command to run...
Memory-QA : réponse à des questions de rappel basée sur des mémoires multimodales
Hongda Jiang Xinyuan Zhang Siddhant Garg Rishab Arora Shiun-Zu Kuo et al

Résumé
Nous introduisons Memory-QA, une nouvelle tâche réelle mettant en jeu la réponse à des questions de rappel portant sur du contenu visuel issu de mémoires multimodales stockées précédemment. Cette tâche soulève des défis uniques, notamment la création de mémoires orientées vers une tâche spécifique, l’utilisation efficace des informations temporelles et spatiales contenues dans les mémoires, ainsi que la capacité à mobiliser plusieurs mémoires pour répondre à une question de rappel. Pour relever ces défis, nous proposons une pipeline complète, Pensieve, intégrant une augmentation spécifique aux mémoires, une récupération multi-signaux sensible au temps et à l’emplacement, ainsi qu’un finetuning de la réponse à des questions à partir de plusieurs mémoires. Nous avons établi une base de benchmark multimodale afin de mettre en évidence diverses difficultés réelles liées à cette tâche, et démontrons que Pensieve surpasser les solutions de pointe (avec une amélioration allant jusqu’à 14 % en précision de réponse aux questions).
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.