vor 2 Monaten

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) haben beeindruckende Fähigkeiten in zahlreichen Anwendungsbereichen demonstriert, doch deren Trainingsprozess bleibt ressourcen- und zeitintensiv und erfordert erhebliche Rechenleistung sowie eine sorgfältige Koordination der Trainingsverfahren. Die Methode des „Model Souping“ – das Mitteln der Gewichte mehrerer Modelle derselben Architektur – hat sich als vielversprechende Vor- und Nachtrainingsstrategie etabliert, die die Leistungsfähigkeit verbessern kann, ohne teure Neutrainings erforderlich zu machen. In diesem Artikel stellen wir SoCE (Soup Of Category Experts) vor, einen begründeten Ansatz für das Model Souping, der die Zusammensetzung von Benchmark-Daten nutzt, um optimale Modellkandidaten zu identifizieren, und nicht-uniforme gewichtete Mittelung anwendet, um die Leistung zu maximieren. Im Gegensatz zu früheren Ansätzen mit gleichmäßiger Gewichtung berücksichtigt unsere Methode die Beobachtung, dass Benchmark-Kategorien oft nur geringe Korrelationen in der Modellleistung aufweisen. SoCE identifiziert hierfür „Expertenmodelle“ für jeweils schwach korrelierte Kategorien und kombiniert diese mittels optimierter gewichteter Mittelung statt gleichmäßiger Gewichtung. Wir zeigen, dass der vorgeschlagene Ansatz die Leistung und Robustheit in mehreren Domänen verbessert, darunter mehrsprachige Fähigkeiten, Tool-Aufrufe und mathematische Aufgaben, und zudem führende Ergebnisse auf dem Berkeley Function Calling Leaderboard erzielt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Souper-Modell: Wie einfache Arithmetik die Leistungsfähigkeit von State-of-the-Art-LLMs freisetzt

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu