HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation linguistique multimodale augmentée par la récupération

Michihiro Yasunaga Armen Aghajanyan Weijia Shi Rich James Jure Leskovec Percy Liang Mike Lewis Luke Zettlemoyer Wen-tau Yih

Résumé

Les modèles multimodaux récents tels que DALL-E et CM3 ont réalisé des progrès remarquables dans la génération d’images à partir de texte et la génération de texte à partir d’images. Toutefois, ces modèles stockent l’ensemble des connaissances apprises (par exemple, l’apparence de la Tour Eiffel) dans leurs paramètres, ce qui nécessite des modèles de plus en plus volumineux et des jeux de données d’entraînement croissants pour intégrer davantage de connaissances. Afin d’intégrer les connaissances de manière plus évolutif et modulaire, nous proposons un modèle multimodal augmenté par recherche, permettant à un modèle de base (générateur) de faire référence à des textes et images pertinents récupérés par un module de recherche à partir d’une mémoire externe (par exemple, des documents disponibles sur le web). Plus précisément, pour le module de recherche, nous utilisons un modèle CLIP pré-entraîné, tandis que pour le générateur, nous entraînons un Transformer CM3 sur le jeu de données LAION. Le modèle résultant, nommé RA-CM3 (Retrieval-Augmented CM3), est le premier modèle multimodal capable à la fois de rechercher et de générer du texte et des images. Nous démontrons que RA-CM3 surpasse significativement les modèles de référence tels que DALL-E et CM3 sur les tâches de génération d’images et de légendes (amélioration de 12 points en FID et de 17 points en CIDEr sur MS-COCO), tout en nécessitant bien moins de ressources computationnelles pour l’entraînement (moins de 30 % de celles requises par DALL-E). En outre, nous montrons que RA-CM3 présente de nouvelles capacités, telles que la génération fidèle d’images et l’apprentissage multimodal in-context (par exemple, la génération d’images à partir de démonstrations).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modélisation linguistique multimodale augmentée par la récupération | Articles | HyperAI