MyGO Multiplex CoT: Eine Methode zur Selbstreflexion in großen Sprachmodellen durch doppeltes Kettendenken

Neuere Fortschritte bei großen Sprachmodellen (LLMs) haben ihre beeindruckenden Fähigkeiten in verschiedenen Aufgaben des Schließens und Entscheidungsfindens gezeigt. Dennoch kann die Qualität und Kohärenz des Schlussfolgerungsprozesses noch durch verbesserte Selbsteinsicht und Selbstreflexion profitieren. In dieser Arbeit stellen wir Multiplex CoT (Chain of Thought) vor, eine Methode, die es LLMs ermöglicht, während des Schlussfolgerungsprozesses eine Art Selbstüberprüfung zu simulieren, indem sie doppeltes Kettendenk (CoT) initiieren. Multiplex CoT nutzt die Kraft des iterativen Schließens, bei dem das Modell zunächst eine erste Gedankenreihe generiert und diese anschließend mit einer zweiten Runde der Gedankengenerierung kritisiert und verfeinert. Dieser rekursive Ansatz ermöglicht kohärentere, logischere und robuster answers (Antworten), was den gesamten Entscheidungsprozess verbessert. Wir zeigen auf, wie diese Methode unter Verwendung einfacher Prompt-Engineering-Techniken in bestehenden LLM-Architekturen effektiv implementiert werden kann, um einen ähnlichen Effekt wie das Lern-Verfeinerungsmodell (LRM) zu erzielen, ohne zusätzliche Trainingsphasen zu benötigen. Darüber hinaus präsentieren wir eine praktische Anleitung zur Implementierung der Methode in Google Colab, wodurch eine einfache Integration in realweltliche Anwendungen ermöglicht wird.