OpenAI veröffentlicht LifeSciBench zur Bewertung der KI-Forschungsfähigkeiten in den Lebenswissenschaften
Das neu vorgestellte LifeSciBench stellt einen Meilenstein in der Bewertung künstlicher Intelligenz für die Lebenswissenschaften dar. Das Benchmark-System schließt die Lücke zwischen einfachen Wissensabfragen und den komplexen Anforderungen realer Forschungsprozesse. Entwickelt von Experten aus Biotechnologie und Pharmaindustrie, umfasst LifeSciBench 750 praxisnahe Aufgaben, die sieben zentrale wissenschaftliche Workflows abdecken. Dazu gehören Beweisbewältigung, Datenanalyse, Experimentdesign, wissenschaftliches Reasoning, Validierung, Translation und Kommunikation. Jede Aufgabe ist als Anfrage an einen fachkundigen Kollegen formuliert und erfordert das Verknüpfen mehrerer Schritte, das Handling von Unsicherheiten sowie die Interpretation externer Artefakte wie Datenblätter, Abbildungen oder Sequenzdateien. Die Bewertung erfolgt nicht durch einfache Ja/Nei-Checks, sondern über hochauflösende, aufgabenspezifische Rubriken mit rund 19.000 einzelnen Bewertungskriterien. Dies gewährleistet, dass nicht nur das Endergebnis, sondern auch die wissenschaftliche Plausibilität, Detailtiefe und operative Nützlichkeit der Antworten gemessen werden. Die Aufgaben wurden von 173 promovierten Experten erstellt und in mehrfachen Review-Zyklen validiert. Eine unabhängige Begutachtung durch 453 Fachkräfte bestätigte die hohe Relevanz für die angewandte Forschung. Bei der Evaluierung ausgewählter State-of-the-Art-Modelle zeigen sich deutliche Leistungsunterschiede. GPT-Rosalind erreichte eine Gesamtdurchlaufquote von 36,1 Prozent und verbesserte sich damit gegenüber dem Vorgänger GPT-5.5 merklich. Besonders stark sind aktuelle Modelle im Bereich der wissenschaftlichen Kommunikation und Translation, wo sie zunehmend befähigt sind, präklinische Erkenntnisse in klinische Implikationen zu übersetzen und evidenzbasierte Zusammenfassungen für Gutachter zu erstellen. Schwachstellen bestehen jedoch weiterhin bei aufwändigen Artefaktanalysen, der Optimierung komplexer Experimente sowie der präzisen Generierung exakter Sequenz- oder Strukturdaten. Während Textaufgaben häufiger gelöst werden, bricht die Performance bei der Integration komplexer Abbildungen oder großer Dateiarchive deutlich ein. In etwa einem Sechstel der Fälle erzielen Modelle zwar signifikante Rubrik-Punktzahl, verfehlen jedoch die kritischen Randbedingungen oder lassen Schlüsselkonzepte wie Assay-Limitationen unberücksichtigt. LifeSciBench unterstreicht, dass KI-Systeme noch einen erheblichen Entwicklungsbedarf aufweisen, um autonom in iterativen Forschungszyklen eingesetzt zu werden. Die Ergebnisse belegen, dass aktuelle Modelle eher als unterstützende Werkzeuge denn als Ersatz für menschliche Expertise in frühen Entdeckungsphasen taugen. Für die Zukunft wird ein Transfer von statischen Benchmark-Tests hin zu longitudinalen Deployment-Studien in echten Laborkontexten gefordert. Nur so lässt sich empirisch validieren, ob und wie KI-Plattformen die Forschungsagilität beschleunigen und die Effizienz in der Wirkstoffentwicklung tatsächlich steigern können. LifeSciBench dient damit als kritischer Standard, der die wissenschaftliche Zuverlässigkeit künftiger KI-Integrationen in den Life-Science-Bereich maßgeblich mitbestimmen wird.
