HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Rückwärtsingenieurtechnik für offene Generierung

Rückwärtsingenieurtechnik für offene Generierung

Abstract

Während das „deep reasoning“-Paradigma erhebliche Fortschritte in überprüfbareren Bereichen wie der Mathematik hervorgerufen hat, bleibt seine Anwendung auf offene, kreative Generierung eine zentrale Herausforderung. Die beiden dominierenden Ansätze zur Einführung von Schlussfolgerungsfähigkeiten – Verstärkendes Lernen (Reinforcement Learning, RL) und Instruction-Distillation – zeigen in diesem Kontext erhebliche Schwächen: RL leidet unter fehlenden klaren Belohnungssignalen und qualitativ hochwertigen Belohnungsmodellen, während die Distillation kostspielig ist und durch die Fähigkeiten des Lehrmodells begrenzt wird. Um diese Einschränkungen zu überwinden, stellen wir REverse-Engineered Reasoning (REER) vor, ein neues Paradigma, das den Ansatz grundlegend verändert. Anstatt einen Schlussfolgerungsprozess „vorwärts“ durch Ausprobieren oder Nachahmung zu entwickeln, arbeitet REER „rückwärts“ von bekannten, gut funktionierenden Lösungen aus, um rechnerisch den latenten, schrittweisen tiefen Schlussfolgerungsprozess zu entdecken, der zu diesen Lösungen führen könnte. Mit diesem skalierbaren, ableitungsfreien Ansatz kuratieren und veröffentlichen wir DeepWriting-20K, eine großskalige Datensammlung mit 20.000 tiefen Schlussfolgerungstrajektorien für offene Aufgaben. Unser Modell, DeepWriter-8B, das auf dieser Datenbasis trainiert wurde, übertrifft nicht nur starke Open-Source-Baselines, sondern erreicht Leistungsfähigkeit, die mit, und in manchen Fällen sogar über, führenden proprietären Modellen wie GPT-4o und Claude 3.5 konkurrieren kann.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Rückwärtsingenieurtechnik für offene Generierung | Forschungsarbeiten | HyperAI