Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt
Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt

Abstract
Große Sprachmodelle (Large Language Models, LLMs) haben beeindruckende Fähigkeiten in zahlreichen Anwendungsbereichen demonstriert, doch deren Trainingsprozess bleibt ressourcen- und zeitintensiv und erfordert erhebliche Rechenleistung sowie eine sorgfältige Koordination der Trainingsverfahren. Die Methode des „Model Souping“ – das Mitteln der Gewichte mehrerer Modelle derselben Architektur – hat sich als vielversprechende Vor- und Nachtrainingsstrategie etabliert, die die Leistungsfähigkeit verbessern kann, ohne teure Neutrainings erforderlich zu machen. In diesem Artikel stellen wir SoCE (Soup Of Category Experts) vor, einen begründeten Ansatz für das Model Souping, der die Zusammensetzung von Benchmark-Daten nutzt, um optimale Modellkandidaten zu identifizieren, und nicht-uniforme gewichtete Mittelung anwendet, um die Leistung zu maximieren. Im Gegensatz zu früheren Ansätzen mit gleichmäßiger Gewichtung berücksichtigt unsere Methode die Beobachtung, dass Benchmark-Kategorien oft nur geringe Korrelationen in der Modellleistung aufweisen. SoCE identifiziert hierfür „Expertenmodelle“ für jeweils schwach korrelierte Kategorien und kombiniert diese mittels optimierter gewichteter Mittelung statt gleichmäßiger Gewichtung. Wir zeigen, dass der vorgeschlagene Ansatz die Leistung und Robustheit in mehreren Domänen verbessert, darunter mehrsprachige Fähigkeiten, Tool-Aufrufe und mathematische Aufgaben, und zudem führende Ergebnisse auf dem Berkeley Function Calling Leaderboard erzielt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.