Command Palette
Search for a command to run...
Wenn das Leben Ihnen Proben gibt: Die Vorteile der Skalierung von Inferenzrechnungen für mehrsprachige LLMs
Ammar Khairi Daniel Dsouza Ye Shen Julia Kreutzer Sara Hooker

Abstract
Kürzliche Fortschritte bei großen Sprachmodellen (LLMs) haben den Fokus auf die Skalierung der Rechenleistung zur Inferenz verlagert, um die Leistung zu verbessern, ohne das Modell erneut zu trainieren. Ein gängiger Ansatz besteht darin, mehrere Ausgaben parallel zu sampeln und eine davon als endgültige Ausgabe auszuwählen. Bislang hat sich die Forschung jedoch hauptsächlich auf Englisch und einige Bereiche wie Mathematik und Programmierung konzentriert. Im Gegensatz dazu interessieren wir uns besonders für Techniken, die sich auf offene Aufgaben, formell verifizierbare Aufgaben und über verschiedene Sprachen hinweg generalisieren lassen. In dieser Arbeit untersuchen wir, wie man die Rechenleistung zur Inferenz robust in einem mehrsprachigen, multitasking-basierten Setting für offene generative Aufgaben skalieren kann.Unsere Ergebnisse zeigen, dass sowohl die Sampelstrategie basierend auf Temperaturvariationen als auch die Selektionsstrategie angepasst werden müssen, um die Vielfalt der Domains und der verschiedenen Spracheinstellungen zu berücksichtigen. Wir evaluieren existierende Selektionsmethoden und stellen fest, dass Strategien, die in Englisch effektiv sind, oft nicht über Sprachgrenzen hinweg generalisieren können. Wir schlagen neuartige Sampel- und Selektionsstrategien vor, die speziell für mehrsprachige und multitasking-basierte Inferenzszenarien angepasst sind, und zeigen, dass sie erhebliche Verbesserungen in verschiedenen Sprachen und Aufgaben bringen. Insbesondere führen unsere kombinierten Sampel- und Selektionsmethoden zu einem durchschnittlichen Anstieg von +6,8 Prozentpunkten in den Siegeraten unserer 8-Milliarden-Parameter-Modelle bei m-ArenaHard-v2.0-Prompts im Vergleich zu proprietären Modellen wie Gemini. Bei größerer Skalierung zeigt Command-A (111-Milliarden-Parameter-Modell) mit unseren Methoden eine Steigerung der Siegerate um +9,0 Prozentpunkte bei derselben Benchmarking mit nur fünf Sampels im Vergleich zum Decoding mit einem einzelnen Sampel – eine erhebliche Verbesserung zu minimalen Kosten. Unsere Ergebnisse unterstreichen die Notwendigkeit sprach- und taskbewusster Ansätze zur Inferenzrechenleistung, mit dem Ziel, Leistungsverbesserungen in unterrepräsentierten Sprachen zu demokratisieren.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.