Command Palette
Search for a command to run...
Untersuchung der wissenschaftlichen Allgemeint intelligence von LLMs mittels wissenschaftlerausgerichteter Workflows
Untersuchung der wissenschaftlichen Allgemeint intelligence von LLMs mittels wissenschaftlerausgerichteter Workflows
Abstract
Trotz Fortschritten im Bereich wissenschaftlicher KI fehlt weiterhin ein kohärenter Rahmen für Scientific General Intelligence (SGI) – die Fähigkeit, eigenständig wissenschaftliche Konzepte zu entwickeln, Untersuchungen durchzuführen und über verschiedene wissenschaftliche Disziplinen hinweg zu reflektieren. Wir präsentieren eine operationalisierbare Definition von SGI, die auf dem Practical Inquiry Model (PIM: Deliberation, Conception, Action, Perception) basiert, und operationalisieren sie durch vier an Wissenschaftler*innen orientierte Aufgaben: Tiefenforschung, Ideengenerierung, trockene/nasse Experimente sowie experimentelle Schlussfolgerung. SGI-Bench umfasst über 1.000 von Experten kuratierte, interdisziplinäre Beispiele, die sich an Science’s 125 Big Questions orientieren, und ermöglicht eine systematische Evaluation moderner Großmodell-LLMs. Die Ergebnisse offenbaren erhebliche Lücken: geringe exakte Übereinstimmung (10–20 %) bei der Tiefenforschung trotz schrittweiser Ausrichtung; Ideen, die mangelnd an Umsetzbarkeit und Detailgenauigkeit leiden; hohe Code-Ausführbarkeit, aber geringe Genauigkeit der Ausführungsresultate bei trockenen Experimenten; geringe Sequenztreue bei nassen Protokollen; sowie anhaltende Herausforderungen bei multimodaler vergleichender Schlussfolgerung. Darüber hinaus führen wir Test-Time Reinforcement Learning (TTRL) ein, das die Retrieval-ergänzte Belohnung für Neuheit während der Inferenz optimiert und so die Hypothesen-Neuartigkeit ohne Bezug auf eine Referenzantwort steigert. Zusammen bilden unsere PIM-basierte Definition, der arbeitsablaufzentrierte Benchmark und die empirischen Erkenntnisse eine fundierte Grundlage für KI-Systeme, die tatsächlich an der wissenschaftlichen Entdeckung teilnehmen.