HyperAI
Back to Headlines

o3 von OpenAI führt bei wissenschaftlichen Fragen

vor 6 Tagen

o3, ein künstliches Intelligenzmodell (KI) von den Entwicklern von ChatGPT, wurde als das beste KI-Tool zur Beantwortung wissenschaftlicher Fragen in verschiedenen Bereichen eingestuft. Diese Bewertung erfolgte auf der letzte Woche gestarteten Benchmarks-Plattform SciArena, die vom Allen Institute for Artificial Intelligence (Ai2) in Seattle, Washington, entwickelt wurde. SciArena bewertete 23 große Sprachmodelle (LLMs) basierend auf Antworten auf wissenschaftliche Fragen, die von 102 Forschern bewertet wurden. O3 erhielt nach mehr als 13.000 Stimmen die höchste Note in den Bereichen Naturwissenschaften, Gesundheitswesen, Ingenieurwesen und Geistes- und Sozialwissenschaften. DeepSeek-R1, ein Modell des Unternehmens DeepSeek aus Hangzhou, China, belegte den zweiten Platz in den Naturwissenschaften und den vierten in Ingenieurwesen. Googles Gemini-2.5-Pro kam auf den dritten Platz in den Naturwissenschaften sowie auf den fünften in Ingenieurwesen und Gesundheitswesen. Die Vorliebe der Benutzer für o3 könnte sich daraus ergeben, dass das Modell sehr detaillierte Literaturhinweise liefert und technisch nuancierte Antworten produziert, erklärt Arman Cohan, Forschungswissenschaftler am Ai2. Er betont jedoch, dass die Erklärung der unterschiedlichen Leistungsfähigkeiten der Modelle schwierig ist, da die meisten proprietär sind und ihre interne Struktur nicht offenlegt werden. Unterschiede in den Trainingsdaten und die Optimierung für bestimmte Aufgaben könnten jedoch teilweise die Ursache sein. SciArena ist eine der ersten Plattformen, die die Leistungsfähigkeit von LLMs bei wissenschaftlichen Aufgaben durch crowd-based Feedback bewertet. „SciArena ist ein positiver Schritt, der eine sorgfältige Bewertung von LLM-gestützten Literaturaufgaben fördert“, sagt Rahul Shome, Roboterik- und KI-Forscher an der Australian National University in Canberra. Um die 23 LLMs zu bewerten, bat SciArena die Forscher, wissenschaftliche Fragen einzureichen. Die Nutzer erhielten daraufhin Antworten von zwei zufällig ausgewählten Modellen, die ihre Antworten mit Referenzen aus Semantic Scholar, einem ebenfalls von Ai2 entwickelten KI-Forschungswerkzeug, untermauerten. Die Benutzer konnten dann abstimmen, welches Modell die beste Antwort gab, ob beide Modelle vergleichbar waren oder beide schlecht abschnitten. Die Plattform ist nun öffentlich zugänglich und ermöglicht es Nutzern, Forschungsfragen kostenlos zu stellen. Alle Benutzer erhalten Antworten von zwei Modellen und können deren Leistung bewerten. Nur die Stimmen von verifizierten Nutzern, die den Geschäftsbedingungen zustimmen, werden jedoch in die Rangliste einbezogen, die das Unternehmen regelmäßig aktualisieren wird. Die Fähigkeit, LLMs nach wissenschaftlichen Themen zu befragen und den Antworten zu vertrauen, wird den Forschern helfen, mit der neuesten Literatur in ihrem Fachgebiet Schritt zu halten, meint Jonathan Kummerfeld, KI-Forscher an der University of Sydney in Australien. „Dies wird den Forschern helfen, Arbeiten zu finden, die sie sonst vielleicht übersehen hätten.“ Industryinsider sehen in SciArena eine wichtige Plattform, um die Leistungsfähigkeit von KI-Modellen in wissenschaftlichen Kontexten transparent und nachvollziehbar zu machen. OpenAI, das Unternehmen hinter o3, ist bekannt für seine fortschrittlichen KI-Modelle und setzt sich kontinuierlich für Innovationen ein. DeepSeek und Google folgen mit starken Modellen, die in spezifischen Bereichen ausgezeichnete Ergebnisse erzielen. Die Plattform SciArena wird dazu beitragen, die Entwicklung und Verbesserung dieser Modelle zu fördern und gleichzeitig den Nutzern ein besseres Verständnis der Stärken und Schwächen verschiedener KI-Tools zu vermitteln.

Related Links