vor 4 Monaten

Wenn das Leben Ihnen Proben gibt: Die Vorteile der Skalierung von Inferenzrechnungen für mehrsprachige LLMs

Ammar Khairi Daniel Dsouza Ye Shen Julia Kreutzer Sara Hooker

Abstract

Kürzliche Fortschritte bei großen Sprachmodellen (LLMs) haben den Fokus auf die Skalierung der Rechenleistung zur Inferenz verlagert, um die Leistung zu verbessern, ohne das Modell erneut zu trainieren. Ein gängiger Ansatz besteht darin, mehrere Ausgaben parallel zu sampeln und eine davon als endgültige Ausgabe auszuwählen. Bislang hat sich die Forschung jedoch hauptsächlich auf Englisch und einige Bereiche wie Mathematik und Programmierung konzentriert. Im Gegensatz dazu interessieren wir uns besonders für Techniken, die sich auf offene Aufgaben, formell verifizierbare Aufgaben und über verschiedene Sprachen hinweg generalisieren lassen. In dieser Arbeit untersuchen wir, wie man die Rechenleistung zur Inferenz robust in einem mehrsprachigen, multitasking-basierten Setting für offene generative Aufgaben skalieren kann.Unsere Ergebnisse zeigen, dass sowohl die Sampelstrategie basierend auf Temperaturvariationen als auch die Selektionsstrategie angepasst werden müssen, um die Vielfalt der Domains und der verschiedenen Spracheinstellungen zu berücksichtigen. Wir evaluieren existierende Selektionsmethoden und stellen fest, dass Strategien, die in Englisch effektiv sind, oft nicht über Sprachgrenzen hinweg generalisieren können. Wir schlagen neuartige Sampel- und Selektionsstrategien vor, die speziell für mehrsprachige und multitasking-basierte Inferenzszenarien angepasst sind, und zeigen, dass sie erhebliche Verbesserungen in verschiedenen Sprachen und Aufgaben bringen. Insbesondere führen unsere kombinierten Sampel- und Selektionsmethoden zu einem durchschnittlichen Anstieg von +6,8 Prozentpunkten in den Siegeraten unserer 8-Milliarden-Parameter-Modelle bei m-ArenaHard-v2.0-Prompts im Vergleich zu proprietären Modellen wie Gemini. Bei größerer Skalierung zeigt Command-A (111-Milliarden-Parameter-Modell) mit unseren Methoden eine Steigerung der Siegerate um +9,0 Prozentpunkte bei derselben Benchmarking mit nur fünf Sampels im Vergleich zum Decoding mit einem einzelnen Sampel – eine erhebliche Verbesserung zu minimalen Kosten. Unsere Ergebnisse unterstreichen die Notwendigkeit sprach- und taskbewusster Ansätze zur Inferenzrechenleistung, mit dem Ziel, Leistungsverbesserungen in unterrepräsentierten Sprachen zu demokratisieren.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Wenn das Leben Ihnen Proben gibt: Die Vorteile der Skalierung von Inferenzrechnungen für mehrsprachige LLMs

Ammar Khairi Daniel Dsouza Ye Shen Julia Kreutzer Sara Hooker

Abstract

KI mit KI entwickeln

Hyper Newsletters