HyperAI
Back to Headlines

Neues Framework trennt Wissen von Logik in LLM-Reasoning.

vor 13 Tagen

Wie denken moderne Sprachmodelle wirklich? Ein Rahmenwerk zur Trennung von Logik und Wissen Neueste Fortschritte bei sprachmodellen, die auf logisches Denken abzielen, wie OpenAI’s o1/3 und DeepSeek-R1, haben bemerkenswerte Verbesserungen bei komplexen Aufgaben gebracht. Dennoch bleibt der Schritt-für-Schritt-Prozess des Denkens dieser Modelle unklar. Die meisten Bewertungen konzentrieren sich auf die Endgenauigkeit, was den zugrunde liegenden Denkprozess verbirgt und nicht offenlegt, wie die Modelle Wissen und Logik kombinieren. Frühere Methoden versuchten, das Denken durch den Vergleich der Antworten mit der ursprünglichen Frage zu messen, aber dies ist fehleranfällig, da die Modelle oft auf vorherigen Deduktionen oder internen Wissensbasen zurückgreifen. Unterschiedliche Bereiche wie Mathematik und Medizin haben unterschiedliche Anforderungen an das Denken, was die Notwendigkeit betont, bessere, domänenbezogene Evaluationsmethoden für vertrauenswürdige KI zu entwickeln. Die Schwächen der Endantwortbewertung in Mathematik und Medizin Moderne Sprachmodelle haben erhebliche Fortschritte in der Bearbeitung von Aufgaben im Bereich Mathematik und Medizin gemacht, dank verbesserten Trainingsdaten und Belohnungsstrategien. Dennoch konzentriert sich der Großteil dieses Fortschritts auf die Steigerung der Genauigkeit der Endantworten, anstatt das Schritt-für-Schritt-Denken zu verstehen. Fehlende Fakten in Schlussfolgerungsketten oder die Messung der Ähnlichkeit zwischen den Schlussfolgerungsschritten und der ursprünglichen Frage wurden in früheren Studien als Probleme identifiziert. Allerdings garantiert eine hohe Ähnlichkeit weder die logische Konsistenz noch die faktische Richtigkeit, da die Modelle oft internes Wissen oder frühere Schlussfolgerungen nutzen. Ein neues Rahmenwerk zur Trennung von Wissen und Logik im Denken von Sprachmodellen Forscher aus der UC Santa Cruz, Stanford und der Tongji University gehen über die Evaluation der Endantworten hinaus und zerlegen das Denken von Sprachmodellen in zwei wesentliche Bestandteile: faktisches Wissen und logische Schritte. Sie führen ein detailliertes Rahmenwerk ein, das zwei Metriken nutzt: den Wissensindex (KI) für die faktische Genauigkeit und den Informationsgewinn (InfoGain) für die Qualität des Denkens. Ihre Analyse der Qwen-Modelle bei mathematischen und medizinischen Aufgaben zeigt, dass Fähigkeiten im Denken nicht leicht zwischen Bereichen übertragen werden. Während überwachtes Feinjustierung (SFT) die Genauigkeit steigert, kann sie die Tiefe des Denkens beeinträchtigen. Verstärkendes Lernen (RL) hilft jedoch, das Denken zu optimieren, indem es unwichtige Informationen entfernt. Diese Arbeit unterstreicht die Bedeutung einer sorgfältigeren Evaluation und Ausbildung von Sprachmodellen. Bewertung des Denkens mit den Modellen Qwen2.5-7B und DeepSeek-R1 Die Forscher bewerten das Denken von Sprachmodellen, indem sie Qwen2.5-7B und dessen durch DeepSeek-R1 destillierte Version, die mit SFT und RL trainiert wurde, analysieren. Sie verwenden Aufgaben aus den Bereichen Mathematik und Medizin, um die Antworten in logische Schritte zu zerlegen und diese mit den beiden entscheidenden Metriken zu bewerten: Informationsgewinn (wie viel Unsicherheit durch jeden Schritt reduziert wird) und Wissensindex (wie faktisch korrekt jeder Schritt ist, nach Überprüfung durch Experten). Der Informationsgewinn misst die Informationsdichte jedes Schritts, während der Wissensindex prüft, ob das Wissen den Realitäten entspricht. Dieser Ansatz offenbart, wie die Modelle denken und wo sie in Genauigkeit oder Logik versagen können. Überwachtes Feinjustierung versus Verstärkendes Lernen in domänenbezogenen Aufgaben Die Studie vergleicht zwei Varianten des Qwen-2.5-7B-Modells: Qwen-Base und die destillierte Version Qwen-R1 auf medizinischen Aufgaben. Die Ergebnisse zeigen, dass Qwen-Base in Genauigkeit, Wissensaufnahme und Fähigkeit zum Denken stets besser abschneidet, insbesondere nach SFT und RL. Das destillierte Modell kämpft wahrscheinlich mit einem Domänenmissmatch, da seine vorherige Ausbildung sich auf Mathematik und Code konzentriert hat. Interessanterweise verbessert SFT das medizinische Wissen effektiver als RL, kann aber die Effizienz des Denkens leicht beeinträchtigen. RL erhöht hingegen sowohl die Fähigkeit zum Denken als auch das Wissen, wenn es nach SFT angewendet wird. Medizinische Benchmarks basieren stärker auf faktischem Wissen als auf abstraktem Denken, im Gegensatz zu mathematisch orientierten Aufgaben. Zusammenfassung: Auf dem Weg zu interpretierbareren und vertrauenswürdigeren Sprachmodellen Zusammenfassend führt die Studie ein Rahmenwerk ein, das Wissen von Logik trennt, um das Denken von Sprachmodellen besser zu evaluieren, besonders in hochsensiblen Bereichen wie Medizin und Mathematik. Die Nutzung von Qwen-Modellen, die mit SFT und RL trainiert wurden, ergab, dass SFT zwar die faktische Genauigkeit erhöht, was in der Medizin essentiell ist, aber oft das Denken schwächt. RL optimiert dagegen das Denken, indem es fehlerhafte Informationen entfernt. Dieses Rahmenwerk könnte auf andere Bereiche wie Recht und Finanzen erweitert werden, wo strukturiertes Denken ebenso wichtig ist. Insbesondere hilft dieser Ansatz, die Entscheidungsprozesse von Sprachmodellen zu klären und Wege aufzuzeigen, wie deren Ausbildung für spezifische Domänen angepasst werden kann. Die Arbeit der Forscher zeigt, dass die Entwicklung von Sprachmodellen, die sowohl in der Genauigkeit als auch in der Fähigkeit zum strukturierten Denken excellieren, eine multidimensionale Herausforderung ist. Indem sie die Evaluation des Denkens in verschiedene Komponenten aufteilen, bieten sie einen wichtigen Beitrag zur Transparenz und Zuverlässigkeit von KI-Systemen. Unternehmen wie OpenAI und DeepSeek, die sich auf die Entwicklung solcher Modelle spezialisiert haben, könnten von diesem Rahmenwerk profitieren, um ihre Modelle weiter zu verbessern und zu verfeinern.

Related Links