HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung der wissenschaftlichen Allgemeint intelligence von LLMs mittels wissenschaftlerausgerichteter Workflows

Abstract

Trotz Fortschritten im Bereich wissenschaftlicher KI fehlt weiterhin ein kohärenter Rahmen für Scientific General Intelligence (SGI) – die Fähigkeit, eigenständig wissenschaftliche Konzepte zu entwickeln, Untersuchungen durchzuführen und über verschiedene wissenschaftliche Disziplinen hinweg zu reflektieren. Wir präsentieren eine operationalisierbare Definition von SGI, die auf dem Practical Inquiry Model (PIM: Deliberation, Conception, Action, Perception) basiert, und operationalisieren sie durch vier an Wissenschaftler*innen orientierte Aufgaben: Tiefenforschung, Ideengenerierung, trockene/nasse Experimente sowie experimentelle Schlussfolgerung. SGI-Bench umfasst über 1.000 von Experten kuratierte, interdisziplinäre Beispiele, die sich an Science’s 125 Big Questions orientieren, und ermöglicht eine systematische Evaluation moderner Großmodell-LLMs. Die Ergebnisse offenbaren erhebliche Lücken: geringe exakte Übereinstimmung (10–20 %) bei der Tiefenforschung trotz schrittweiser Ausrichtung; Ideen, die mangelnd an Umsetzbarkeit und Detailgenauigkeit leiden; hohe Code-Ausführbarkeit, aber geringe Genauigkeit der Ausführungsresultate bei trockenen Experimenten; geringe Sequenztreue bei nassen Protokollen; sowie anhaltende Herausforderungen bei multimodaler vergleichender Schlussfolgerung. Darüber hinaus führen wir Test-Time Reinforcement Learning (TTRL) ein, das die Retrieval-ergänzte Belohnung für Neuheit während der Inferenz optimiert und so die Hypothesen-Neuartigkeit ohne Bezug auf eine Referenzantwort steigert. Zusammen bilden unsere PIM-basierte Definition, der arbeitsablaufzentrierte Benchmark und die empirischen Erkenntnisse eine fundierte Grundlage für KI-Systeme, die tatsächlich an der wissenschaftlichen Entdeckung teilnehmen.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Untersuchung der wissenschaftlichen Allgemeint intelligence von LLMs mittels wissenschaftlerausgerichteter Workflows | Papers | HyperAI