HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

DeepMMSearch-R1 : Accroître les capacités des modèles linguistiques multimodaux dans la recherche web multimodale

Kartik Narayan Yang Xu Tian Cao Kavya Nerella Vishal M. Patel et al

DeepMMSearch-R1 : Accroître les capacités des modèles linguistiques multimodaux dans la recherche web multimodale

Résumé

Les modèles de langage à grande échelle multimodaux (MLLM) utilisés dans des applications du monde réel doivent avoir accès à des sources de connaissances externes et rester réactifs face à l’information du monde réel, en constante évolution, afin de répondre efficacement aux requêtes d’information et aux questions exigeant une connaissance approfondie. Les approches existantes, telles que les méthodes de génération augmentée par récupération (RAG), les agents de recherche ou les MLLM équipés de fonctionnalités de recherche, souffrent souvent de pipelines rigides, de nombreuses requêtes de recherche inutiles et de requêtes mal formulées, entraînant des inefficacités et des résultats sous-optimaux. Pour remédier à ces limitations, nous proposons DeepMMSearch-R1, le premier modèle de langage à grande échelle multimodal capable d’effectuer des recherches web itératives et à la demande, ainsi que de concevoir dynamiquement des requêtes adaptées aux outils de recherche textuelle et visuelle. Plus précisément, DeepMMSearch-R1 peut déclencher des recherches web à partir de zones pertinentes extraites de l’image d’entrée, rendant ainsi la recherche visuelle plus efficace, et peut itérativement ajuster les requêtes textuelles en fonction des informations récupérées, permettant ainsi une auto-réflexion et une auto-correction. Notre approche repose sur un pipeline d’entraînement en deux étapes : une phase initiale de fine-tuning supervisé (« cold start »), suivie d’une optimisation en apprentissage par renforcement en ligne. Pour l’entraînement, nous introduisons DeepMMSearchVQA, un nouveau jeu de données de question-réponse multimodale (VQA), conçu via un pipeline automatisé intégrant des informations réelles provenant d’outils de recherche web. Ce jeu de données comprend des requêtes complexes, à plusieurs étapes, combinant information textuelle et visuelle, et enseigne au modèle à déterminer quand effectuer une recherche, quoi rechercher, quel outil de recherche utiliser, et comment raisonner sur les informations récupérées. Nous menons des expériences approfondies sur une variété de benchmarks exigeant une connaissance étendue afin de démontrer l’efficacité supérieure de notre approche. Enfin, nous analysons les résultats et proposons des observations utiles pour faire progresser les recherches multimodales sur le web.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DeepMMSearch-R1 : Accroître les capacités des modèles linguistiques multimodaux dans la recherche web multimodale | Articles de recherche | HyperAI