vor 2 Tagen

SPICE: Selbstspiel in Korpusumgebungen verbessert das Schlussfolgern

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Abstract

Selbstverbessernde Systeme erfordern eine Wechselwirkung mit ihrer Umgebung, um kontinuierlich anzupassen. Wir stellen SPICE (Self-Play In Corpus Environments) vor, einen Rahmen für Verstärkungslernen, bei dem ein einzelnes Modell zwei Rollen übernimmt: einen Herausforderer, der aus einer großen Dokumentenkorpus Dokumente extrahiert, um vielfältige Schlussfolgerungsaufgaben zu generieren, und einen Schlussfolgerer, der diese löst. Durch antagonistische Dynamiken schafft der Herausforderer automatisch einen Lernpfad an der Grenze der Fähigkeiten des Schlussfolgerers, während die Korpus-Grundlage eine reichhaltige, nahezu unerschöpfliche externe Signalquelle bereitstellt, die für eine nachhaltige Verbesserung notwendig ist. Im Gegensatz zu bestehenden, nicht korpusbasierten Selbstspielmethoden, die nur begrenzte Vorteile bieten, erzielt SPICE konsistente Verbesserungen bei mathematischen (+8,9 %) und allgemeinen Schlussfolgerungsaufgaben (+9,8 %) über mehrere Modellfamilien hinweg. Unsere Analyse zeigt, dass die Dokumentenbasierte Grundlage ein entscheidender Faktor in SPICE ist, um kontinuierlich zunehmend anspruchsvollere Ziele zu generieren und diese zu erreichen, wodurch eine nachhaltige Selbstverbesserung ermöglicht wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SPICE: Selbstspiel in Korpusumgebungen verbessert das Schlussfolgern

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Abstract

KI mit KI entwickeln

Hyper Newsletters