Die Decke der LLM-Gemeinschaft durchbegehnen, indem die Token-Generierung als Klassifizierung für das Ensemble behandelt wird

Das Ensemble von mehreren Modellen war und ist immer eine effektive Methode, um die Grenzen der bestehenden Leistung zu erweitern, und wird weit verbreitet in Klassifizierungsaufgaben eingesetzt, indem man einfach die Klassifikationswahrscheinlichkeitsvektoren verschiedener Klassifizierer durchschnittt, um eine höhere Genauigkeit zu erreichen. Allerdings sind Ensembling-Methoden in der prosperierenden Open-Source-Gemeinschaft der großen Sprachmodelle (LLMs) selten und werden in der Regel auf das Ensemble der vollständigen Textausgaben von LLMs beschränkt, wie zum Beispiel die Auswahl der besten Ausgabe mithilfe eines Rangierers. Dies führt zu einer Unterbewertung der tokenbasierten Wahrscheinlichkeitsinformationen. In dieser Arbeit behandeln wir die Generierung jedes Tokens durch LLMs als Klassifizierung (GaC) für das Ensembling. Dieser Ansatz nutzt die Wahrscheinlichkeitsinformationen bei jedem Generierungsschritt vollständig aus und verhindert besser, dass LLMs frühzeitig falsche Tokens produzieren, was zu sich aufstapelnden Fehlern führen kann. In Experimenten kombinieren wir state-of-the-art-LLMs auf mehreren Benchmarks, einschließlich Prüfungen, Mathematik und Logikfragen, und beobachten, dass unsere Methode die bestehende Leistungsgrenze der Gemeinschaft durchbricht. Darüber hinaus stellten wir fest, dass die meisten Tokens in den Antworten einfach sind und nicht die Richtigkeit der endgültigen Antwort beeinflussen. Daher haben wir auch Experimente mit dem Ensembling nur wichtiger Tokens durchgeführt, und die Ergebnisse zeigten eine bessere Leistung bei geringerer Latenz über alle Benchmarks hinweg.