vor 2 Monaten

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Zusammenfassung

Trotz Fortschritten im Bereich wissenschaftlicher KI fehlt weiterhin ein kohärenter Rahmen für Scientific General Intelligence (SGI) – die Fähigkeit, eigenständig wissenschaftliche Konzepte zu entwickeln, Untersuchungen durchzuführen und über verschiedene wissenschaftliche Disziplinen hinweg zu reflektieren. Wir präsentieren eine operationalisierbare Definition von SGI, die auf dem Practical Inquiry Model (PIM: Deliberation, Conception, Action, Perception) basiert, und operationalisieren sie durch vier an Wissenschaftler*innen orientierte Aufgaben: Tiefenforschung, Ideengenerierung, trockene/nasse Experimente sowie experimentelle Schlussfolgerung. SGI-Bench umfasst über 1.000 von Experten kuratierte, interdisziplinäre Beispiele, die sich an Science’s 125 Big Questions orientieren, und ermöglicht eine systematische Evaluation moderner Großmodell-LLMs. Die Ergebnisse offenbaren erhebliche Lücken: geringe exakte Übereinstimmung (10–20 %) bei der Tiefenforschung trotz schrittweiser Ausrichtung; Ideen, die mangelnd an Umsetzbarkeit und Detailgenauigkeit leiden; hohe Code-Ausführbarkeit, aber geringe Genauigkeit der Ausführungsresultate bei trockenen Experimenten; geringe Sequenztreue bei nassen Protokollen; sowie anhaltende Herausforderungen bei multimodaler vergleichender Schlussfolgerung. Darüber hinaus führen wir Test-Time Reinforcement Learning (TTRL) ein, das die Retrieval-ergänzte Belohnung für Neuheit während der Inferenz optimiert und so die Hypothesen-Neuartigkeit ohne Bezug auf eine Referenzantwort steigert. Zusammen bilden unsere PIM-basierte Definition, der arbeitsablaufzentrierte Benchmark und die empirischen Erkenntnisse eine fundierte Grundlage für KI-Systeme, die tatsächlich an der wissenschaftlichen Entdeckung teilnehmen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Benchmarks

LLM

Retrieval-Augmented Generation

KI-Infrastruktur

Ansatz/Rahmenwerk

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Benchmarks

LLM

Retrieval-Augmented Generation

KI-Infrastruktur

Ansatz/Rahmenwerk

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Untersuchung der wissenschaftlichen Allgemeint intelligence von LLMs mittels wissenschaftlerausgerichteter Workflows

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao97 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Untersuchung der wissenschaftlichen Allgemeint intelligence von LLMs mittels wissenschaftlerausgerichteter Workflows

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao97 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Untersuchung der wissenschaftlichen Allgemeint intelligence von LLMs mittels wissenschaftlerausgerichteter Workflows

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao97 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao