HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 4 Tagen

Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt

Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt

Abstract

Große Sprachmodelle (Large Language Models, LLMs) haben beeindruckende Fähigkeiten in zahlreichen Anwendungsbereichen demonstriert, doch deren Trainingsprozess bleibt ressourcen- und zeitintensiv und erfordert erhebliche Rechenleistung sowie eine sorgfältige Koordination der Trainingsverfahren. Die Methode des „Model Souping“ – das Mitteln der Gewichte mehrerer Modelle derselben Architektur – hat sich als vielversprechende Vor- und Nachtrainingsstrategie etabliert, die die Leistungsfähigkeit verbessern kann, ohne teure Neutrainings erforderlich zu machen. In diesem Artikel stellen wir SoCE (Soup Of Category Experts) vor, einen begründeten Ansatz für das Model Souping, der die Zusammensetzung von Benchmark-Daten nutzt, um optimale Modellkandidaten zu identifizieren, und nicht-uniforme gewichtete Mittelung anwendet, um die Leistung zu maximieren. Im Gegensatz zu früheren Ansätzen mit gleichmäßiger Gewichtung berücksichtigt unsere Methode die Beobachtung, dass Benchmark-Kategorien oft nur geringe Korrelationen in der Modellleistung aufweisen. SoCE identifiziert hierfür „Expertenmodelle“ für jeweils schwach korrelierte Kategorien und kombiniert diese mittels optimierter gewichteter Mittelung statt gleichmäßiger Gewichtung. Wir zeigen, dass der vorgeschlagene Ansatz die Leistung und Robustheit in mehreren Domänen verbessert, darunter mehrsprachige Fähigkeiten, Tool-Aufrufe und mathematische Aufgaben, und zudem führende Ergebnisse auf dem Berkeley Function Calling Leaderboard erzielt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt | Forschungsarbeiten | HyperAI