HyperAIHyperAI
vor 17 Tagen

Ist die Chain-of-Thought-Reasoning von LLMs eine Illusion? Ein Blick aus der Perspektive der Datenverteilung

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
Ist die Chain-of-Thought-Reasoning von LLMs eine Illusion? Ein Blick aus der Perspektive der Datenverteilung
Abstract

Die Chain-of-Thought-(CoT-)Prompting-Strategie hat sich als wirksam erwiesen, um die Leistung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben zu verbessern. Bei diesem Ansatz scheinen LLMs menschenähnliche Schlussfolgerungsschritte vor der Antwortabgabe zu generieren (auch CoT-Schlussfolgerung genannt), was oft den Eindruck erweckt, dass sie bewusst abduktive Prozesse durchlaufen. Dennoch deuten erste Erkenntnisse darauf hin, dass die CoT-Schlussfolgerung möglicherweise oberflächlicher ist, als sie erscheint, was uns veranlasst, diese Frage weiter zu untersuchen. In diesem Artikel analysieren wir CoT-Schlussfolgerung unter dem Aspekt der Datenausgangsverteilung und prüfen, ob diese Schlussfolgerung eine strukturierte induktive Voreingenommenheit widerspiegelt, die aus den in-distribution-Daten gelernt wurde und es dem Modell ermöglicht, bedingt Schlussfolgerungspfade zu generieren, die denen aus dem Trainingsprozess ähneln. Die Wirksamkeit dieser Strategie ist somit grundsätzlich durch den Grad der Verteilungsunterschiede zwischen den Trainingsdaten und den Testabfragen begrenzt. Unter diesem Blickwinkel untersuchen wir die CoT-Schlussfolgerung anhand dreier Dimensionen: Aufgabe, Länge und Format. Um jede Dimension systematisch zu erforschen, entwickeln wir DataAlchemy – eine isolierte und kontrollierte Umgebung, in der LLMs von Grund auf neu trainiert und unter verschiedenen Verteilungsbedingungen gezielt untersucht werden können. Unsere Ergebnisse zeigen, dass die CoT-Schlussfolgerung eine fragile Illusion darstellt, die verschwindet, sobald sie jenseits der Trainingsverteilung getestet wird. Diese Arbeit liefert ein tieferes Verständnis dafür, warum und unter welchen Bedingungen CoT-Schlussfolgerung versagt, und unterstreicht die weiterhin bestehende Herausforderung, echte und verallgemeinerbare Schlussfolgerung zu erreichen.