Command Palette
Search for a command to run...
Freisetzung wissenschaftlichen Schließens zur Generierung bio-experimenteller Protokolle mittels strukturierter komponentenbasierter Belohnungsmechanismus
Haoran Sun Yankai Jiang Zhenyu Tang Yaning Pan et al

Abstract
Die Grundlage reproduzierbarer Wissenschaft liegt in Protokollen, die präzise, logisch geordnet und ausführbar sind. Die autonome Generierung solcher Protokolle mittels natürlicher Sprache könnte die Effizienz des Reproduktionsprozesses erheblich steigern. Derzeitige führende große Sprachmodelle (Large Language Models, LLMs) erzeugen jedoch oft unvollständige oder inkonsistente Protokolle, was ihre Nutzbarkeit einschränkt. Um dieses Limit zu überwinden, stellen wir zunächst SciRecipe vor – einen großskaligen Datensatz mit über 12.000 strukturierten Protokollen, der 27 biologische Teilgebiete abdeckt und sowohl Aufgaben zur Verständnis als auch zur Problemlösung umfasst. Um die Qualität der Protokollgenerierung weiter zu verbessern, schlagen wir das „Sketch-and-Fill“-Paradigma vor, das Analyse, Strukturierung und Ausdruck voneinander trennt, um sicherzustellen, dass jeder Schritt explizit und überprüfbar ist. Ergänzend dazu implementieren wir eine strukturierte, komponentenbasierte Belohnungsmechanik, die die Schrittgranularität, die Ablaufreihenfolge und die semantische Treue bewertet und somit die Modelloptimierung mit der experimentellen Zuverlässigkeit ausrichtet. Aufbauend auf diesen Komponenten entwickeln wir Thoth, das über einen mehrstufigen Wissens-zu-Aktion-Prozess trainiert wurde, der von der Wissenserwerbsphase über die operativen Schlussfolgerungen hin zu robusten, ausführbaren Protokollen führt. Auf mehreren Benchmarks übertrifft Thoth sowohl proprietäre als auch Open-Source-LLMs konsistent und erreicht signifikante Verbesserungen hinsichtlich der Schritt-Ausrichtung, der logischen Abfolge und der semantischen Genauigkeit. Unser Ansatz eröffnet den Weg für zuverlässige wissenschaftliche Assistenten, die Wissen mit der experimentellen Umsetzung verbinden. Alle Daten, den Quellcode und die Modelle werden öffentlich zugänglich gemacht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.