HyperAI

Bereitstellung Des OpenAI-kompatiblen API-Dienstes Llama 3.1 405B-Modells Mit Nur Einem Klick

Tutorial und Modelleinführung

Dieses Tutorial dient der Bereitstellung des Modells Llama-3.1-405B-Instruct-AWQ-INT4 mithilfe des OpenAI-kompatiblen API-Dienstes und umfasst Text- und Video-Tutorials.

* Video-Tutorial:[Offizielles OpenBayes-Tutorial] Schnelle Bereitstellung der supergroßen Modelle Mistral-Large und Llama-3.1-405B

Bei diesem Modell handelt es sich um eine auf Anweisungen mit einer Parametergröße von 405B optimierte Version der Llama 3.1-Reihe großer Sprachmodelle. Es verwendet die AWQ-Quantisierungstechnologie, um die Gewichte des Modells auf INT4-Präzision zu quantisieren. Dies trägt dazu bei, die Modellgröße zu reduzieren und die Inferenzgeschwindigkeit zu verbessern, während die Leistung erhalten bleibt. Es handelt sich um eines der derzeit größten verfügbaren Open-Source-Modelle. Es unterstützt mehrsprachige Eingabe und Ausgabe, verbessert die Vielseitigkeit und Anwendbarkeit des Modells und führt gleichzeitig ein längeres Kontextfenster zur Bewältigung komplexerer Aufgaben und Konversationen ein.

„OpenAI-kompatible API“ bezieht sich auf eine Anwendungsprogrammierschnittstelle (API), die den von OpenAI festgelegten Schnittstellenstandards und -spezifikationen folgt und es Entwicklern ermöglicht, diese APIs zur Interaktion mit großen Sprachmodellen (wie den Modellen der GPT-Reihe von OpenAI) zu verwenden. Diese Kompatibilität bedeutet, dass Drittanbieterentwickler ähnliche Funktionen in ihre eigenen Anwendungen integrieren können, indem sie dieselben Anforderungs- und Antwortformate wie OpenAI verwenden. Wenn ein Entwickler beispielsweise einen Chatbot mit der API von OpenAI erstellt hat, kann er problemlos zu einem anderen Dienst wechseln, der ebenfalls dem OpenAI-kompatiblen API-Standard folgt, ohne größere Änderungen an seinem Code vornehmen zu müssen.

Zu den wichtigsten Funktionen der OpenAI-kompatiblen API gehören:

  • Standardisierte Anfragen: API-Anfragen folgen dem Format von OpenAI, einschließlich der erforderlichen Parameter und Struktur.
  • Standardisierte Antworten: Auch die API-Antworten folgen dem Format von OpenAI, wodurch die Ergebnisse der Verarbeitung und Analyse konsistent und vorhersehbar werden.
  • Funktionalitätskonsistenz: Bietet ähnliche Funktionen wie OpenAI, z. B. Textgenerierung, Übersetzung, Zusammenfassung usw.
  • Einfache Integration: Entwickler können diese APIs problemlos in vorhandene Systeme integrieren und dabei vertraute Schnittstellen und Muster nutzen.

Text-Tutorial

1. Klonen und starten Sie den Container in der oberen rechten Ecke der Tutorial-Oberfläche

Die OpenAI-kompatible API startet nach erfolgreicher Bereitstellung alle Dienste automatisch und ohne zusätzliche Eingriffe.

2. Kopieren Sie die API-Adresse auf eine neue Seite und öffnen Sie diese

Sie können sehen, dass eine 404-Standardmeldung angezeigt wird.

3. Fügen Sie nach der API-Adresse einen zusätzlichen Parameter '/v1/models' hinzu

Sie können sehen, dass die Bereitstellungsinformationen des Modells angezeigt werden.

4. An diesem Punkt können Sie in jedem OpenAI-kompatiblen SDK eine Verbindung zum Modell herstellen. Hier nehmen wir OpenWebUI als Beispiel - verwenden Sie das lokale OpenWebUI, um diese API zu integrieren

Starten Sie lokal einen OpenWebUI-Dienst, starten Sie eine zusätzliche Verbindung in „Externe Verbindung“, füllen Sie die API in „OpenAPI“ aus und ➕ „/v1“. Hier ist kein „API-Schlüssel“ festgelegt, geben Sie ihn einfach individuell ein. Klicken Sie unten rechts auf „Speichern“.

5. Bereitstellung abgeschlossen

Sie können sehen, dass die OpenWebUI-Schnittstelle bereits über das Modell Llama-3.1-405b verfügt. Um mit dem großen Model zu kommunizieren, können Sie unten einfach eine Nachricht eingeben.