HyperAI
vor 8 Tagen

MegaScience: Die Weiterentwicklung der Post-Training-Datensätze für wissenschaftliches Denken

Run-Ze Fan, Zengzhi Wang, Pengfei Liu
MegaScience: Die Weiterentwicklung der Post-Training-Datensätze für wissenschaftliches Denken
Abstract

Die wissenschaftliche Argumentation ist entscheidend für die Entwicklung von KI-Wissenschaftlern und die Unterstützung menschlicher Forscher bei der Weiterentwicklung der Grenzen der naturwissenschaftlichen Forschung. Allerdings hat sich die Open-Source-Community hauptsächlich auf Mathematik und Codierung konzentriert, während sie den wissenschaftlichen Bereich weitgehend vernachlässigt hat, vor allem aufgrund des Fehlens offener, großskaliger, hochwertiger und verifizierbarer Datensätze für wissenschaftliche Argumentation. Um diese Lücke zu schließen, präsentieren wir zunächst TextbookReasoning, einen offenen Datensatz, der wahrheitsgemäße Referenzantworten aus 12.000 universitären wissenschaftlichen Lehrbüchern extrahiert, bestehend aus 650.000 Argumentationsfragen, die sich über 7 wissenschaftliche Disziplinen erstrecken. Darüber hinaus führen wir MegaScience ein, eine großskalige Mischung hochwertiger Open-Source-Datensätze mit insgesamt 1,25 Millionen Instanzen, die durch systematische Ablationsstudien entwickelt wurden, um verschiedene Methoden zur Datenauswahl zu bewerten und den optimalen Datensatz für jede öffentlich verfügbare wissenschaftliche Datensammlung zu identifizieren. Gleichzeitig haben wir ein umfassendes Bewertungssystem entwickelt, das eine Vielzahl von Themen und Fragearten über 15 Benchmarks abdeckt, und das umfassende Antwortextraktionsstrategien integriert, um genaue Bewertungsmetriken sicherzustellen. Unsere Experimente zeigen, dass unsere Datensätze im Vergleich zu bestehenden Open-Source-Datensätzen für wissenschaftliche Argumentation eine bessere Leistung und Trainings-effizienz mit kürzeren Antwortlängen erreichen. Darüber hinaus trainieren wir die Basismodelle der Llama3.1-, Qwen2.5- und Qwen3-Reihe auf MegaScience, wodurch sie eine deutlich bessere Durchschnittsleistung als die entsprechenden offiziellen Instruct-Modelle erzielen. Zudem zeigt MegaScience eine größere Effektivität bei größeren und leistungsstärkeren Modellen, was auf einen Skalierungsvorteil für die wissenschaftliche Anpassung hinweist. Wir stellen unsere Datensammlungs-Pipeline, das Bewertungssystem, die Datensätze und sieben trainierte Modelle der Gemeinschaft zur Verfügung, um die Forschung zu wissenschaftlicher Argumentation voranzutreiben.