HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI-X : À propos de l'élargissement d'un modèle multilingue de vision et de langage

Résumé

Nous présentons la recette d'entraînement et les résultats de l'échelonnage de PaLI-X, un modèle multilingue de vision et de langage, tant en termes de taille des composants que de diversité du mélange des tâches d'entraînement. Notre modèle atteint de nouveaux niveaux de performance sur une large gamme de tâches variées et complexes, y compris des tâches basées sur plusieurs images telles que la légendisation et le question-réponse, la compréhension de documents basée sur des images, l'apprentissage par quelques exemples (en contexte), ainsi que la détection d'objets, le question-réponse vidéo et la légendisation vidéo. PaLI-X fait progresser l'état de l'art sur la plupart des benchmarks considérés en vision et langage (plus de 25). Enfin, nous observons l'émergence de nouvelles capacités, telles que le comptage complexe et la détection d'objets multilingue, qui ne sont pas explicitement incluses dans le mélange d'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PaLI-X : À propos de l'élargissement d'un modèle multilingue de vision et de langage | Articles | HyperAI