HyperAI

Cambrian-1 ist eine Familie multimodaler LLMs (MLLMs), die mit einem visuellen Ansatz entwickelt wurden. Während leistungsstarke Sprachmodelle multimodale Fähigkeiten verbessern können, sind die Designentscheidungen der visuellen Komponente oft nicht ausreichend erforscht und entsprechen nicht der Forschung zum Lernen visueller Darstellungen.

Cambrian-1 basiert auf fünf Hauptsäulen, von denen jede wichtige Einblicke in den Gestaltungsraum von MLMs bietet:

Visuelle Darstellung: Das Forschungsteam untersuchte verschiedene visuelle Encoder und deren Kombinationen.
Konnektor-Design: Das Forschungsteam hat einen neuen dynamischen und räumlich bewussten Konnektor entwickelt, der visuelle Funktionen aus mehreren Modellen integriert und gleichzeitig die Anzahl der Token reduziert.
Daten zur Unterrichtsoptimierung: Das Forschungsteam kuratiert hochwertige visuelle Daten zur Unterrichtsoptimierung aus öffentlichen Ressourcen und betont die Bedeutung einer ausgewogenen Verteilung.
Kochbuch zur Unterrichtsoptimierung: Das Forschungsteam diskutiert Strategien und Praktiken zur Unterrichtsoptimierung.
Benchmarks: Das Forschungsteam untersuchte bestehende MLM-Benchmarks und führte einen neuen visionszentrierten Benchmark „CV-Bench“ ein.

Website des Cambrian-1-Projekts:https://cambrian-mllm.github.io/#visual-representation

Modellleistung

Modell	# Vis. Tok.	MMB	SQA-I	MathVistaM	ChartQA	MMVP
GPT-4V	UNK	75.8	–	49.9	78.5	50.0
Gemini-1.0 Pro	UNK	73.6	–	45.2	–	–
Gemini-1.5 Pro	UNK	–	–	52.1	81.3	–
Grok-1.5	UNK	–	–	52.8	76.1	–
MM-1-8B	144	72.3	72.6	35.9	–	–
MM-1-30B	144	75.1	81.0	39.4	–	–
Basis-LLM: LLaMA3-8B-Instruct
Mini-Gemini-HD-8B	2880	72.7	75.1	37.0	59.1	18.7
LLaVA-NeXT-8B	2880	72.1	72.8	36.3	69.5	38.7
Kambrium-1-8B	576	75.9	80.4	49.0	73.3	51.3
Basis-LLM: Vicuna1.5-13B
Mini-Gemini-HD-13B	2880	68.6	71.9	37.0	56.6	19.3
LLaVA-NeXT-13B	2880	70.0	73.5	35.1	62.2	36.0
Kambrium-1-13B	576	75.7	79.3	48.0	73.8	41.3
Basis-LLM: Hermes2-Yi-34B
Mini-Gemini-HD-34B	2880	80.6	77.7	43.4	67.6	37.3
LLaVA-NeXT-34B	2880	79.3	81.8	46.5	68.7	47.3
Kambrium-1-34B	576	81.4	85.6	53.2	75.6	52.7

Bereitstellen des Inferenzschritts

In diesem Tutorial wurden das Modell und die Umgebung bereitgestellt. Sie können das große Modell direkt für den Denkdialog gemäß den Anweisungen im Tutorial verwenden. Das spezifische Tutorial lautet wie folgt:

1. Ersteinrichtung

1. Öffnen Sie den Arbeitsbereich nach der Ressourcenkonfiguration

2. Öffnen Sie das Terminal und geben Sie den Befehl ein `bash setup.sh`

3. Nachdem das System die zu .bashrc hinzugefügte Umgebungsvariable ausgegeben hat, geben Sie den Befehl ein `source ~/.bashrc`

2. Starten Sie den Controller

4. Nach Abschluss der Initialisierung geben Sie den Befehl im Terminal ein `bash control.sh`

3. Öffnen Sie die Schnittstelle

5. Warten Sie etwa 15 Sekunden und öffnen Sie dann einNeues Terminalund geben Sie den Befehl ein `bash gradio.sh`, klicken Sie auf den auf der Seite generierten Link, um die Modellschnittstelle aufzurufen

6. Beachten Sie, dass wir derzeit in der Modellschnittstelle kein Modell zur Auswahl haben. Dies liegt daran, dass wir das Modell noch nicht konfiguriert haben. An dieser Stelle ist der vierte Schritt erforderlich.

4. Modellkonfiguration

7. Öffnen Sie ein weiteresNeues Terminal Und geben Sie den Befehl ein `bash model.sh` . Wenn „Uvicorn läuft auf …“ angezeigt wird, kehren Sie zur geöffneten Gradio-Weboberfläche zurück und aktualisieren Sie sie, um zu sehen, dass das Modell bereitgestellt wurde. Anschließend können Sie Bilder und Aufforderungen hochladen, um mit dem Modell zu sprechen.

Darüber hinaus gibt es im Modell mehrere Parameter, die vom Benutzer angepasst werden können.

Die Temperatur kann die Kreativität und Zufälligkeit des Ausgabeinhalts beeinflussen.
Top p kann die Größe des Kandidatenwortsatzes steuern und so die Qualität und Vielfalt des generierten Textes beeinflussen
Mit „Max. Ausgabetoken“ können Sie die maximale Anzahl an Ausgabetoken ändern.

Führen Sie Die Cambrian-1-Demo Online Aus

Modellleistung