HyperAI

Meta hat ein neues Verfahren namens AggLM entwickelt, das die traditionelle Methode der „Mehrheitsentscheidung“ bei der Lösung komplexer Probleme durch Large Language Models (LLMs) herausfordert. Statt einfach die häufigste Antwort aus mehreren generierten Lösungen auszuwählen, zielt AggLM darauf ab, die richtige Lösung zu identifizieren – auch wenn sie nicht die beliebteste ist. Dieses Verfahren nutzt eine Form des Reinforcement Learning (RL), bei der das Modell lernt, zwischen überzeugenden, korrekten Argumentationswegen und falschen, aber populären Fehlschlüssen zu unterscheiden. Das Problem entsteht, wenn LLMs schwierige logische oder mathematische Aufgaben lösen müssen. In solchen Fällen neigen mehrere generierte Antworten oft dazu, sich in einem gemeinsamen Fehler zu wiederholen – etwa durch eine falsche Annahme oder eine inkonsistente Schlussfolgerung. Wenn das System dann einfach die am häufigsten vorgeschlagene Antwort auswählt, wird dieser Fehler verstärkt, anstatt korrigiert. AggLM löst dies, indem es nicht nur die Antworten, sondern auch die Qualität des Denkprozesses bewertet. Es trainiert ein „Beurteilungsmodell“, das lernt, welche Argumentationsketten logisch konsistent, schlüssig und fehlerfrei sind – unabhängig davon, wie oft sie auftreten. Der Schlüssel liegt in der Nutzung von Feedback aus einem externen, zuverlässigen Bewertungssystem, das die Richtigkeit der Lösungen beurteilt. Dieses Feedback dient als Signal für das RL-Verfahren, das das LLM dazu anleitet, konsistente und korrekte Lösungswege zu bevorzugen. Im Gegensatz zur klassischen Selbstkonsistenz, die nur auf Häufigkeit setzt, erkennt AggLM auch seltene, aber korrekte Ansätze – wie den „stillen Schüler“ im Klassenzimmer, der die richtige Lösung findet, obwohl niemand sonst sie sieht. Erste Tests zeigen, dass AggLM signifikant bessere Ergebnisse erzielt als herkömmliche Methoden, insbesondere bei anspruchsvollen Problemen aus Bereichen wie Mathematik, logischem Schließen und wissenschaftlicher Argumentation. Die Verbesserungen sind besonders deutlich, wenn die Aufgaben so komplex sind, dass die Mehrheit der Antworten fehlerhaft ist. Industrieexperten sehen in AggLM einen Meilenstein in der Entwicklung von LLMs für hochgradig kritische Anwendungen. „Wir können nicht mehr nur auf Häufigkeit setzen, wenn es um korrekte Schlussfolgerungen geht“, sagt ein Forscher von einem führenden KI-Institut. „AggLM zeigt, dass intelligente Bewertung von Denkprozessen notwendig ist, um die Intelligenz von LLMs wirklich zu entfalten.“ Meta hat AggLM bereits in internen Forschungsprojekten eingesetzt und plant, die Technologie in zukünftigen Produktlinien zu integrieren, insbesondere in Tools für wissenschaftliche Forschung, technische Planung und komplexe Entscheidungsunterstützung. Die Methode könnte die Grundlage für eine neue Generation von LLMs bilden, die nicht nur viele Antworten liefern, sondern auch die besten finden – unabhängig von Popularität.

Verwandte Links

Verwandte Links

Verwandte Links

Das MIT Hat Das Pichia-CLM-Modell Entwickelt, Um Die „Sprache“ Der Hefe-DNA Zu Erlernen Und so Möglicherweise Die Ausbeute an Exogenen Proteinen Um Bis Zu Das Dreifache Zu steigern.

Das MIT Hat Das Pichia-CLM-Modell Entwickelt, Um Die „Sprache“ Der Hefe-DNA Zu Erlernen Und so Möglicherweise Die Ausbeute an Exogenen Proteinen Um Bis Zu Das Dreifache Zu steigern.

Command Palette

Meta trainiert LLMs, die richtige Antwort zu finden, nicht nur die populäre

Verwandte Links

Command Palette

Meta trainiert LLMs, die richtige Antwort zu finden, nicht nur die populäre

Verwandte Links

Command Palette

Meta trainiert LLMs, die richtige Antwort zu finden, nicht nur die populäre

Verwandte Links

Das MIT Hat Das Pichia-CLM-Modell Entwickelt, Um Die „Sprache“ Der Hefe-DNA Zu Erlernen Und so Möglicherweise Die Ausbeute an Exogenen Proteinen Um Bis Zu Das Dreifache Zu steigern.

Das MIT Hat Das Pichia-CLM-Modell Entwickelt, Um Die „Sprache“ Der Hefe-DNA Zu Erlernen Und so Möglicherweise Die Ausbeute an Exogenen Proteinen Um Bis Zu Das Dreifache Zu steigern.