HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI : Un modèle multilingue conjointement échelonné pour le langage et les images

Résumé

L'échelonnage efficace et une interface de tâches flexible permettent aux grands modèles de langage d'exceller dans de nombreuses tâches. Nous présentons PaLI (Pathways Language and Image model), un modèle qui étend cette approche à la modélisation conjointe du langage et de la vision. PaLI génère du texte en fonction des entrées visuelles et textuelles, et grâce à cette interface, il effectue de nombreuses tâches visuelles, linguistiques et multimodales, dans de nombreuses langues. Pour entraîner PaLI, nous utilisons des grands modèles de langage pré-entraînés et des Transformers visuels (ViTs). Cela nous permet d'exploiter leurs capacités existantes et de tirer parti du coût substantiel de leur entraînement. Nous constatons que l'échelonnage conjoint des composants visuels et linguistiques est important. Étant donné que les Transformers existants pour le langage sont beaucoup plus volumineux que leurs homologues visuels, nous avons formé un grand ViT doté de 4 milliards de paramètres (ViT-e) pour quantifier les avantages apportés par des modèles visuels encore plus puissants. Pour entraîner PaLI, nous avons créé un grand mélange multilingue de tâches d'entraînement préliminaire, basé sur un nouveau ensemble d'entraînement image-texte contenant 10 milliards d'images et de textes dans plus de 100 langues. PaLI atteint l'état de l'art dans plusieurs tâches visuelles et linguistiques (comme la légendisation, la réponse à des questions visuelles, la compréhension du texte en scène), tout en conservant une conception simple, modulaire et évolutive.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PaLI : Un modèle multilingue conjointement échelonné pour le langage et les images | Articles | HyperAI