Cadre De Génération De Données UDK-VQA
Le cadre UDK-VQA est un cadre de génération de données proposé conjointement par le laboratoire d'intelligence artificielle de Shanghai, l'Institut de technologie de Pékin, l'Université du Zhejiang et l'Université de Hong Kong en 2024. Il vise à aider les grands modèles multimodaux à fournir des commentaires sur les informations en temps réel. Les résultats pertinents de l'article sontSearchLVLMs : un framework prêt à l'emploi pour enrichir les grands modèles vision-langage en recherchant des informations Internet actualisées".
L'objectif principal du cadre UDK-VQA est d'améliorer les modèles de langage de vision à grande échelle (LVLM) existants pour leur permettre de gérer les réponses visuelles aux questions (VQA) avec des connaissances de pointe. Étant donné que les grands modèles de langage de vision ne peuvent pas être mis à jour suffisamment fréquemment pour intégrer les connaissances les plus récentes, ils échouent dans de nombreux cas lorsqu'ils gèrent des scénarios qui nécessitent des informations nouvelles. Par exemple, si un LVLM est publié en janvier 2024, il n'a aucune idée de qui est l'artiste de la chanson thème d'un film sorti en avril 2024.
Pour résoudre ce problème, nous proposons un cadre plug-and-play pour fournir aux LVLM les connaissances les plus récentes lors de l'inférence via la recherche sur Internet, appelée Internet Augmentation Generation (IAG). Le cadre UDK-VQA forme un modèle de filtrage hiérarchique pour trouver efficacement et efficacement le contenu le plus utile des pages Web renvoyées par les moteurs de recherche afin d'inviter les LVLM avec les connaissances les plus récentes.
De plus, afin de former le modèle et d'évaluer les performances du cadre, les chercheurs ont proposé un processus permettant de générer automatiquement des échantillons VQA liés à l'actualité pour construire un ensemble de données, nommé UDK-VQA.