HyperAI
Back to Headlines

Forscher erstellen neuen Benchmark BRAINTEASERS mit 478 Aufgaben.

vor 11 Tagen

Forscher haben kürzlich ein neues Benchmark namens BRAINTEASERS entwickelt, das 478 logische und mathematische Aufgaben enthält, von menschlichen Experten sorgfältig ausgewählt. Im Rahmen dieser Studie wurden verschiedene Hauptströme große Modelle wie OpenAI o3, Gemini und DeepSeek R1 getestet. Einige der wichtigsten Erkenntnisse sind: Die Modelle zeigten die Fähigkeit, kreative Lösungen zu erzeugen, wandten sich aber bei schwierigen Aufgaben wieder dem Blinden Ausprobieren zu. Wahrhafte Anhaltspunkte (hints) waren sehr effektiv, insbesondere bei Aufgaben mit hoher Schwierigkeitsgrad, wo sie die Genauigkeit erheblich verbessern konnten. Das Umformulieren natürlichsprachlicher Fragen in mathematische Ausdrucksform brachte nur begrenzte Verbesserungen, was darauf hindeutet, dass die Modelle das tieferliegende Konzept der Frage noch nicht vollständig verstanden haben. Die Modelle waren in Selbstkorrekturaufgaben leicht zu irreführen, auch wenn die korrekten Antworten von Menschen stammten. Sie konnten durch "tricks" verleitet werden, diese als falsch zu kennzeichnen. Ein Forscher kommentierte: "Diese Phänomene sind bei Bewertungen oft schwer zu erkennen, aber sobald man den Beweisprozess im Detail betrachtet, werden sie klar." Die Studie zeigte, dass die wahre Kommunikationsfähigkeit nicht nur darin besteht, die richtigen Antworten zu geben, sondern auch, das Konzept hinter der Frage zu verstehen. Die Erkenntnisse wurden auf führende Experten präsentiert, die größtenteils positiv reagierten. Einige bezeichneten das Werk als einen neuen Ansatz in der AI-Forschung, der die "innere Denkweise" der Modelle untersucht. Andere lobten die "Explosion vs. Kreativität" Quantifizierung als wertvoll. Ein besonders interessantes Experiment betraf eine Zahlenreihenaufgabe, bei der OpenAI o3 drei Anhaltspunkte gegeben wurden, einer davon tatsächlich der Schlüssel zur Lösung. Obwohl das Modell direkt die Suchraumgröße reduzieren konnte, behielt es den Hinweis bis zum Schluss. Die Forscher vermuten, dass das Modell den Hinweis aufgrund seiner "Länge" als "komplexer" ansah und daher zurückstellte. Diese Art von Fehler erscheint zwar als Bug, hat aber auch sehr "menschliche" Züge. Die Studie hat mehrere Bereiche aufgezeigt, in denen die Modelle verbessert werden können: Bildung: Zum Beispiel durch die Entwicklung von AI-Lehrern, die Denkprozesse erklären und nicht nur Antworten liefern. Wissenschaftliche Unterstützung: Zum Beispiel durch die Unterstützung mathematischen Denkprozesses, komplexer Modellierungen und Aufgaben, die strukturiertes Denken erfordern. Modelltrainings und -vergleiche: Durch BRAINTEASERS kann der Fokus auf "flache" Modelle gelegt werden, die nicht nur auf richtige Antworten abzielen. AI-Bewertungsstandards: Aktuell betrachten viele Wettkämpfe nur die Endpunktzahl. Die Methoden dieses Forschungsteams könnten helfen, "Diskussion" und "Monolog" präziser zu differenzieren. Insgesamt spiegelt diese Arbeit eine neue Richtung in der AI-Forschung wider, die nicht nur auf die Leistung der Modelle schaut, sondern auch ihre inneren Abläufe und Verständnisfähigkeiten analysiert. Forscher betonen, dass Kreativität, Interpretationsfähigkeit und transparentes Denken der Schlüssel zur Entwicklung vertrauenswürdiger AI-Systeme sind. Industrieinsider bewerten diese Entwicklung als bedeutend, da sie tiefer in die Funktionsweise der KI-Modelle eindringt. Das Forscherteam von Stanford University, an dem Hanifsch beteiligt war, hat bereits Interesse an weiteren Studien auf diesem Gebiet geäußert. Die Ergebnisse könnten zukünftige KI-Anwendungen in Bildung, Wissenschaft und Technologie erheblich verbessern und den Weg für eine robustere und verlässlichere KI bahnen.

Related Links