vor 20 Tagen

DeepSeek-R1 Thoughtology: Lassen Sie uns über LLM-Reasoning nachdenken

Marjanovi&#x107, , Sara Vera, Patel, Arkil, Adlakha, Vaibhav, Aghajohari, Milad, BehnamGhader, Parishad, Bhatia, Mehar, Khandelwal, Aditi, Kraft, Austin, Krojer, Benno, L&#xf9, , Xing Han, Meade, Nicholas, Shin, Dongchan, Kazemnejad, Amirhossein, Kamath, Gaurav, Mosbach, Marius, Sta&#x144, czak, Karolina, Reddy, Siva

Details der Forschungsarbeit anzeigen

DeepSeek-R1 Thoughtology: Lassen Sie uns über LLM-Reasoning nachdenken

Abstract

Große Schlussfolgerungsmodelle wie DeepSeek-R1 markieren eine grundlegende Veränderung darin, wie Sprachmodelle komplexe Probleme angehen. Im Gegensatz zur direkten Antwortgenerierung bei gegebenen Eingaben erstellt DeepSeek-R1 detaillierte, mehrschrittige Schlussfolgerungsketten und scheint somit „über ein Problem nachzudenken“, bevor es eine Antwort liefert. Dieser Schlussfolgerungsprozess ist öffentlich zugänglich und eröffnet unzählige Möglichkeiten, das Schlussfolgerungsverhalten des Modells zu untersuchen und die neue Disziplin der Thoughtology zu erschließen. Ausgehend von einer Taxonomie der grundlegenden Bausteine der Schlussfolgerung bei DeepSeek-R1 untersuchen wir die Auswirkungen und Steuerbarkeit der Gedankenlänge, die Bewältigung langer oder verwirrender Kontexte, kulturelle und Sicherheitsaspekte sowie den Status von DeepSeek-R1 im Vergleich zu kognitiven Phänomenen wie menschenähnlicher Sprachverarbeitung und Weltmodellierung. Unsere Ergebnisse zeichnen ein nuanciertes Bild. Insbesondere zeigen wir, dass DeepSeek-R1 ein „optimales Schlussfolgerungsniveau“ besitzt, bei dem zusätzliche Inferenzzeit die Modellleistung beeinträchtigen kann. Zudem beobachten wir eine Tendenz bei DeepSeek-R1, sich unverändert an früheren Problemformulierungen festzuklammern, was eine weitere Exploration behindert. Außerdem stellen wir erhebliche Sicherheitsanfälligkeiten bei DeepSeek-R1 im Vergleich zu seinem nicht-schlussfolgernden Gegenstück fest, die auch Sicherheitsausrichtung bei LLMs gefährden können.