Exécutez La Démonstration Cambrian-1 En Ligne


Cambrian-1 est une famille de LLM multimodaux (MLLM) conçus avec une approche centrée sur la vision. Bien que de puissants modèles de langage puissent améliorer les capacités multimodales, les choix de conception du composant visuel sont souvent sous-explorés et déconnectés de la recherche sur l’apprentissage de la représentation visuelle.
Cambrian-1 s'articule autour de cinq piliers clés, chacun d'entre eux fournissant des informations importantes sur l'espace de conception des MLM :
- Représentation visuelle : L’équipe de recherche a exploré divers encodeurs visuels et leurs combinaisons.
- Conception du connecteur : L'équipe de recherche a conçu un nouveau connecteur dynamique et sensible à l'espace qui intègre des fonctionnalités visuelles de plusieurs modèles tout en réduisant le nombre de jetons.
- Données de réglage des instructions : l'équipe de recherche organise des données de réglage des instructions visuelles de haute qualité à partir de ressources publiques, soulignant l'importance d'une distribution équilibrée.
- Livre de recettes pour le réglage des instructions : l’équipe de recherche discute des stratégies et des pratiques de réglage des instructions.
- Repères : L'équipe de recherche a examiné les repères MLM existants et a introduit un nouveau repère centré sur la vision « CV-Bench ».
Site Web du projet Cambrian-1 :https://cambrian-mllm.github.io/#visual-representation
Performances du modèle
Modèle | # Vis. Jeton. | MMB | SQA-I | MathVistaM | ChartQA | MMVP |
---|---|---|---|---|---|---|
GPT-4V | Inconnu | 75.8 | – | 49.9 | 78.5 | 50.0 |
Gemini-1.0 Pro | Inconnu | 73.6 | – | 45.2 | – | – |
Gemini-1.5 Pro | Inconnu | – | – | 52.1 | 81.3 | – |
Grok-1.5 | Inconnu | – | – | 52.8 | 76.1 | – |
MM-1-8B | 144 | 72.3 | 72.6 | 35.9 | – | – |
MM-1-30B | 144 | 75.1 | 81.0 | 39.4 | – | – |
Base LLM : LLaMA3-8B-Instruct | ||||||
Mini-Gemini-HD-8B | 2880 | 72.7 | 75.1 | 37.0 | 59.1 | 18.7 |
LLaVA-NeXT-8B | 2880 | 72.1 | 72.8 | 36.3 | 69.5 | 38.7 |
Cambrien-1-8B | 576 | 75.9 | 80.4 | 49.0 | 73.3 | 51.3 |
Base LLM : Vicuna1.5-13B | ||||||
Mini-Gemini-HD-13B | 2880 | 68.6 | 71.9 | 37.0 | 56.6 | 19.3 |
LLaVA-NeXT-13B | 2880 | 70.0 | 73.5 | 35.1 | 62.2 | 36.0 |
Cambrien-1-13B | 576 | 75.7 | 79.3 | 48.0 | 73.8 | 41.3 |
Base LLM : Hermes2-Yi-34B | ||||||
Mini-Gemini-HD-34B | 2880 | 80.6 | 77.7 | 43.4 | 67.6 | 37.3 |
LLaVA-NeXT-34B | 2880 | 79.3 | 81.8 | 46.5 | 68.7 | 47.3 |
Cambrien-1-34B | 576 | 81.4 | 85.6 | 53.2 | 75.6 | 52.7 |
Déployer l'étape d'inférence
Ce tutoriel a déployé le modèle et l'environnement. Vous pouvez utiliser directement le grand modèle pour raisonner le dialogue selon les instructions du didacticiel. Le tutoriel spécifique est le suivant :
1. Configuration initiale
1. Ouvrez l'espace de travail après la configuration des ressources

2. Ouvrez le terminal et entrez la commande bash setup.sh


3. Une fois que le système a généré la variable d'environnement ajoutée à .bashrc, entrez la commande source ~/.bashrc

2. Démarrez le contrôleur
4. Une fois l'initialisation terminée, entrez la commande dans le terminal bash control.sh

3. Ouvrez l'interface
5. Attendez environ 15 secondes, puis ouvrez unNouveau terminal, et entrez la commande bash gradio.sh
, cliquez sur le lien généré sur la page pour accéder à l'interface du modèle

6. À ce stade, notez qu’il n’y a aucun modèle à choisir dans l’interface du modèle. C'est parce que nous n'avons pas encore configuré le modèle. À ce stade, la quatrième étape est nécessaire.

4. Configuration du modèle
7. Ouvrir un autreNouveau terminal Et entrez la commande bash model.sh
. Lorsque « Uvicorn s'exécute sur ... » apparaît, revenez à l'interface Web ouverte de Gradio et actualisez-la pour voir que le modèle a été déployé. Vous pouvez ensuite télécharger des images et des invites pour parler au modèle.


Il existe également plusieurs paramètres dans le modèle qui peuvent être ajustés par l'utilisateur.
- la température peut affecter la créativité et le caractère aléatoire du contenu de sortie.
- Top p peut contrôler la taille de l'ensemble de mots candidats, affectant la qualité et la diversité du texte généré
- Les jetons de sortie maximum peuvent modifier le nombre maximum de jetons de sortie.
