HyperAIHyperAI

Command Palette

Search for a command to run...

Meta trainiert LLMs, die richtige Antwort zu finden, nicht nur die populäre

Meta hat ein neues Verfahren namens AggLM entwickelt, das die traditionelle Methode der „Mehrheitsentscheidung“ bei der Lösung komplexer Probleme durch Large Language Models (LLMs) herausfordert. Statt einfach die häufigste Antwort aus mehreren generierten Lösungen auszuwählen, zielt AggLM darauf ab, die richtige Lösung zu identifizieren – auch wenn sie nicht die beliebteste ist. Dieses Verfahren nutzt eine Form des Reinforcement Learning (RL), bei der das Modell lernt, zwischen überzeugenden, korrekten Argumentationswegen und falschen, aber populären Fehlschlüssen zu unterscheiden. Das Problem entsteht, wenn LLMs schwierige logische oder mathematische Aufgaben lösen müssen. In solchen Fällen neigen mehrere generierte Antworten oft dazu, sich in einem gemeinsamen Fehler zu wiederholen – etwa durch eine falsche Annahme oder eine inkonsistente Schlussfolgerung. Wenn das System dann einfach die am häufigsten vorgeschlagene Antwort auswählt, wird dieser Fehler verstärkt, anstatt korrigiert. AggLM löst dies, indem es nicht nur die Antworten, sondern auch die Qualität des Denkprozesses bewertet. Es trainiert ein „Beurteilungsmodell“, das lernt, welche Argumentationsketten logisch konsistent, schlüssig und fehlerfrei sind – unabhängig davon, wie oft sie auftreten. Der Schlüssel liegt in der Nutzung von Feedback aus einem externen, zuverlässigen Bewertungssystem, das die Richtigkeit der Lösungen beurteilt. Dieses Feedback dient als Signal für das RL-Verfahren, das das LLM dazu anleitet, konsistente und korrekte Lösungswege zu bevorzugen. Im Gegensatz zur klassischen Selbstkonsistenz, die nur auf Häufigkeit setzt, erkennt AggLM auch seltene, aber korrekte Ansätze – wie den „stillen Schüler“ im Klassenzimmer, der die richtige Lösung findet, obwohl niemand sonst sie sieht. Erste Tests zeigen, dass AggLM signifikant bessere Ergebnisse erzielt als herkömmliche Methoden, insbesondere bei anspruchsvollen Problemen aus Bereichen wie Mathematik, logischem Schließen und wissenschaftlicher Argumentation. Die Verbesserungen sind besonders deutlich, wenn die Aufgaben so komplex sind, dass die Mehrheit der Antworten fehlerhaft ist. Industrieexperten sehen in AggLM einen Meilenstein in der Entwicklung von LLMs für hochgradig kritische Anwendungen. „Wir können nicht mehr nur auf Häufigkeit setzen, wenn es um korrekte Schlussfolgerungen geht“, sagt ein Forscher von einem führenden KI-Institut. „AggLM zeigt, dass intelligente Bewertung von Denkprozessen notwendig ist, um die Intelligenz von LLMs wirklich zu entfalten.“ Meta hat AggLM bereits in internen Forschungsprojekten eingesetzt und plant, die Technologie in zukünftigen Produktlinien zu integrieren, insbesondere in Tools für wissenschaftliche Forschung, technische Planung und komplexe Entscheidungsunterstützung. Die Methode könnte die Grundlage für eine neue Generation von LLMs bilden, die nicht nur viele Antworten liefern, sondern auch die besten finden – unabhängig von Popularität.

Verwandte Links