HyperAIHyperAI

Command Palette

Search for a command to run...

Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) haben beeindruckende Fähigkeiten in zahlreichen Anwendungsbereichen demonstriert, doch deren Trainingsprozess bleibt ressourcen- und zeitintensiv und erfordert erhebliche Rechenleistung sowie eine sorgfältige Koordination der Trainingsverfahren. Die Methode des „Model Souping“ – das Mitteln der Gewichte mehrerer Modelle derselben Architektur – hat sich als vielversprechende Vor- und Nachtrainingsstrategie etabliert, die die Leistungsfähigkeit verbessern kann, ohne teure Neutrainings erforderlich zu machen. In diesem Artikel stellen wir SoCE (Soup Of Category Experts) vor, einen begründeten Ansatz für das Model Souping, der die Zusammensetzung von Benchmark-Daten nutzt, um optimale Modellkandidaten zu identifizieren, und nicht-uniforme gewichtete Mittelung anwendet, um die Leistung zu maximieren. Im Gegensatz zu früheren Ansätzen mit gleichmäßiger Gewichtung berücksichtigt unsere Methode die Beobachtung, dass Benchmark-Kategorien oft nur geringe Korrelationen in der Modellleistung aufweisen. SoCE identifiziert hierfür „Expertenmodelle“ für jeweils schwach korrelierte Kategorien und kombiniert diese mittels optimierter gewichteter Mittelung statt gleichmäßiger Gewichtung. Wir zeigen, dass der vorgeschlagene Ansatz die Leistung und Robustheit in mehreren Domänen verbessert, darunter mehrsprachige Fähigkeiten, Tool-Aufrufe und mathematische Aufgaben, und zudem führende Ergebnisse auf dem Berkeley Function Calling Leaderboard erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp