HyperAI

Cadre SearchLVLMs

Le framework SearchLVLMs est une solution plug-and-play proposée conjointement par le Shanghai Artificial Intelligence Laboratory (OpenGVLab), l'Institut de technologie de Pékin, l'Université du Zhejiang et l'Université de Hong Kong en 2024, qui vise à améliorer la capacité des modèles de langage visuel à grande échelle (LVLM) existants à gérer les réponses visuelles aux questions (VQA) sur les dernières connaissances. Les résultats pertinents de l'article sontSearchLVLMs : un framework prêt à l'emploi pour enrichir les grands modèles vision-langage en recherchant des informations Internet actualisées".

Les modèles de vision-langage à grande échelle (tels que la famille LLaVA) fonctionnent mal dans de nombreuses situations car ils ne peuvent pas être mis à jour fréquemment et ne sont pas au courant des dernières connaissances (par exemple, le chanteur de la chanson thème d'un nouveau film). Le framework SearchLVLMs améliore ce problème en fournissant une amélioration de la recherche sur Internet dans la phase d'inférence pour aider les LVLM à acquérir les connaissances les plus récentes.

Le framework SearchLVLMs se compose principalement de trois parties : la génération de requêtes, l'invocation du moteur de recherche et le filtrage hiérarchique. Au cours de la phase de génération de requête, le framework doit comprendre pleinement la question et l'image pour la traduire en une requête textuelle adaptée aux moteurs de recherche. Lors de l'étape d'appel du moteur de recherche, les utilisateurs peuvent sélectionner la catégorie du moteur de recherche à appeler en fonction du type de question. Enfin, dans l’étape de filtrage hiérarchique, le framework forme un modèle pour trouver efficacement le contenu le plus utile parmi les pages Web renvoyées par le moteur de recherche.

Les résultats expérimentaux montrent que le cadre SearchLVLMs peut améliorer considérablement les performances des LVLM pour répondre aux questions qui nécessitent les connaissances les plus récentes, avec un taux de précision dépassant GPT-4V d'environ 25%. Le cadre SearchLVLMs proposé fournit une solution plug-and-play pour les grands modèles multimodaux, leur permettant d'intégrer de manière transparente les dernières connaissances Internet et d'améliorer la capacité du modèle à fournir des commentaires sur les informations en temps réel.