Command Palette
Search for a command to run...
Vers une recherche mixte de modalités pour une génération augmentée par la recherche universelle
Chenghao Zhang Guanting Dong Xinyu Yang Zhicheng Dou

Résumé
La génération augmentée par recherche (Retrieval-Augmented Generation, RAG) s'est imposée comme un paradigme puissant pour améliorer les grands modèles linguistiques (LLM) en récupérant des documents pertinents à partir d'un corpus externe. Toutefois, les systèmes RAG existants se concentrent principalement sur des documents textuels unimodaux, et peinent souvent à s'adapter aux scénarios du monde réel où les requêtes et les documents peuvent comporter des modalités mixtes (par exemple, texte et images). Dans cet article, nous abordons le défi de la génération augmentée par recherche universelle (Universal Retrieval-Augmented Generation, URAG), qui consiste à récupérer et raisonner sur des informations multimodales afin d'améliorer la génération vision-langage. À cette fin, nous proposons Nyx, un système unifié de recherche multimodale vers multimodale spécifiquement conçu pour les scénarios URAG. Pour atténuer le manque de données réalistes multimodales, nous introduisons un pipeline automatisé en quatre étapes pour la génération et le filtrage, exploitant des documents web afin de construire NyxQA, un jeu de données comprenant des paires question-réponse multimodales diversifiées, mieux adaptées aux besoins d'information du monde réel. Sur la base de ce jeu de données de haute qualité, nous adoptons un cadre d'entraînement en deux étapes pour Nyx : nous effectuons d'abord un pré-entraînement sur NyxQA, combiné à divers jeux de données open source de recherche, puis une fine-tuning supervisée à l'aide de retours provenant de modèles vision-langage (VLM) en aval, afin d'aligner les sorties de recherche sur les préférences de génération. Les résultats expérimentaux démontrent que Nyx se distingue non seulement sur les benchmarks standards de RAG à texte unique, mais excelle également dans le cadre plus général et réaliste d'URAG, améliorant significativement la qualité de la génération dans les tâches vision-langage.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.