HyperAIHyperAI

Command Palette

Search for a command to run...

KI-Modelle zeigen erhebliche Sicherheitslücken in Laborversuchen

Ein neues Benchmarking-Rahmenwerk, das LabSafety Bench genannt wird, hat erhebliche Sicherheitsrisiken bei der Nutzung künstlicher Intelligenz (KI) in Laborumgebungen aufgedeckt. Die Studie, veröffentlicht in Nature Machine Intelligence, zeigt, dass große Sprachmodelle (LLMs) und visuelle Sprachmodelle (VLMs) bisher nicht verlässlich bei der Identifizierung von Laborgefahren, der Risikoeinschätzung oder der Vorhersage von Folgen sind. Obwohl KI in Bereichen wie der Vorhersage von Proteinstrukturen bereits erfolgreich eingesetzt wird, ist sie für die Sicherheitsarbeit im Labor noch nicht ausreichend ausgereift. Das Forschungsteam entwickelte LabSafety Bench, ein umfassendes Prüfsystem mit 765 Multiple-Choice-Fragen, 404 realistischen Laborszenarien und 3.128 offenen Aufgaben zu Themen wie Gefahrenidentifikation, Risikobewertung und Folgenprognose in Biologie, Chemie, Physik und allgemeinen Labors. Insgesamt wurden 19 KI-Modelle evaluiert – darunter acht proprietäre Modelle, sieben Open-Weight-LLMs und vier Open-Weight-VLMs. Bei den VLMs wurden 133 textbasierte Fragen mit Bildern verwendet. Die offenen Aufgaben umfassten Tests wie HIT (Risikowahrnehmung) und CIT (Auswirkungsprognose). Obwohl einige proprietäre Modelle wie GPT-4o (86,55 % Genauigkeit) und DeepSeek-R (84,49 %) bei strukturierten Aufgaben gut abschnitten, zeigten sie gravierende Schwächen bei komplexen, szenariobasierten Aufgaben. Besonders kritisch war, dass keine der Modelle bei der Gefahrenidentifikation über 70 % Genauigkeit erreichte. In den HIT- und CIT-Tests übertrafen die Modelle in Biologie- und Physik-Szenarien die Chemie- und Kryotechnik-Bereiche deutlich, insbesondere bei der Behandlung von flüssigen Kryogenen und allgemeinen Laborrisiken. Einige Modelle erreichten unter 50 % bei Fragen zur falschen Gerätebedienung, während selbst das schlechteste Modell bei „häufigsten Gefahren“ noch 66,55 % erreichte – was auf systematische Lücken hindeutet. Die Vicuna-Modelle zeichneten sich als besonders schlecht ab, insbesondere in Text-only-Aufgaben, wo ihre Leistung nahe an Zufall lag. InstrucBlip-7B, basierend auf Vicuna-7B, erzielte die schlechtesten Ergebnisse bei textbasierten Bildfragen. Versuche, die Sicherheitskenntnisse durch Fine-Tuning zu verbessern, brachten nur geringe Fortschritte – etwa 5–10 %, und Methoden wie Retrieval-Augmented Generation (RAG) zeigten keine konsistente Verbesserung. Die Forscher betonen, dass größere oder neuere Modelle nicht automatisch sicherer sind. Stattdessen identifizieren sie kritische Fehlermuster wie falsche Risikopriorisierung, Halluzinationen und Überanpassung. Die Studie unterstreicht die dringende Notwendigkeit, KI in Laboren nur unter strenger menschlicher Aufsicht einzusetzen, bis signifikante Fortschritte in der Sicherheitskompetenz erreicht sind. Sie fordern zudem die breite Einführung von Benchmarking-Tools wie LabSafety Bench, um die Entwicklung sicherheitsbewusster KI-Modelle zu fördern. Industrieexperten warnen, dass die Vertrauenswürdigkeit von KI in gefährlichen Umgebungen nur durch rigorose Validierung und menschliche Kontrolle gewährleistet werden kann. Unternehmen wie OpenAI, Google DeepMind und Meta investieren bereits in sicherheitskritische KI-Entwicklung, doch die Ergebnisse zeigen, dass technologische Fortschritte allein nicht ausreichen. Labors müssen künftig nicht nur technische, sondern auch ethische und sicherheitstechnische Rahmenbedingungen für KI-Einsatz schaffen. Die Studie liefert eine wichtige Grundlage für eine verantwortungsvolle Integration von KI in die wissenschaftliche Forschung.

Verwandte Links