Command Palette
Search for a command to run...
SPICE: Selbstspiel in Korpusumgebungen verbessert das Schlussfolgern
Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Abstract
Selbstverbessernde Systeme erfordern eine Wechselwirkung mit ihrer Umgebung, um kontinuierlich anzupassen. Wir stellen SPICE (Self-Play In Corpus Environments) vor, einen Rahmen für Verstärkungslernen, bei dem ein einzelnes Modell zwei Rollen übernimmt: einen Herausforderer, der aus einer großen Dokumentenkorpus Dokumente extrahiert, um vielfältige Schlussfolgerungsaufgaben zu generieren, und einen Schlussfolgerer, der diese löst. Durch antagonistische Dynamiken schafft der Herausforderer automatisch einen Lernpfad an der Grenze der Fähigkeiten des Schlussfolgerers, während die Korpus-Grundlage eine reichhaltige, nahezu unerschöpfliche externe Signalquelle bereitstellt, die für eine nachhaltige Verbesserung notwendig ist. Im Gegensatz zu bestehenden, nicht korpusbasierten Selbstspielmethoden, die nur begrenzte Vorteile bieten, erzielt SPICE konsistente Verbesserungen bei mathematischen (+8,9 %) und allgemeinen Schlussfolgerungsaufgaben (+9,8 %) über mehrere Modellfamilien hinweg. Unsere Analyse zeigt, dass die Dokumentenbasierte Grundlage ein entscheidender Faktor in SPICE ist, um kontinuierlich zunehmend anspruchsvollere Ziele zu generieren und diese zu erreichen, wodurch eine nachhaltige Selbstverbesserung ermöglicht wird.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.