HyperAIHyperAI

Command Palette

Search for a command to run...

Modèles de vision-langage PaLI-3 : Plus petits, plus rapides, plus puissants

Xi Chen∗, Xiao Wang∗, Lucas Beyer∗, Alexander Kolesnikov∗, Jialin Wu1, Paul Voigtländer1, Basil Mustafa2, Sebastian Goodman1, Ibrahim Alabdulmohsin2, Piotr Padlewski2, Daniel Salz1, Xi Xiong3, Daniel Vlasic3, Filip Pavetic2, Keran Rong2, Tianli Yu3, Daniel Keysers2, Xiaohua Zhai†, Radu Soricut†

Résumé

Ce document présente PaLI-3, un modèle de vision et de langage (VLM) plus petit, plus rapide et plus performant qui se compare favorablement à des modèles similaires dix fois plus grands. Dans le cadre de l'obtention de ces résultats solides, nous comparons les modèles de Vision Transformer (ViT) préentraînés en utilisant des objectifs de classification aux modèles préentraînés par contraste (SigLIP). Nous constatons que, bien qu'ils sous-performent légèrement sur les benchmarks standard de classification d'images, les PaLI basés sur SigLIP montrent une performance supérieure sur divers benchmarks multimodaux, notamment en localisation et en compréhension du texte située visuellement. Nous augmentons l'encodeur d'images SigLIP jusqu'à 2 milliards de paramètres, atteignant ainsi un nouveau niveau d'état de l'art dans la recherche multilingue croisée modale. Nous espérons que PaLI-3, avec seulement 5 milliards de paramètres, relancera la recherche sur les éléments fondamentaux des VLM complexes et pourrait stimuler une nouvelle génération de modèles évolués.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp