HyperAIHyperAI

Command Palette

Search for a command to run...

Erste Prüfung der Wissenschaftler: Untersuchung der kognitiven Fähigkeiten von MLLM durch Wahrnehmung, Verstehen und Schlussfolgerung

Zusammenfassung

Wissenschaftliche Entdeckungen basieren zunehmend auf komplexer multimodaler Schlussfolgerung, die auf informationsreichen wissenschaftlichen Daten und fachspezifischem Expertenwissen aufbaut. Gestützt durch wissenschaftliche Benchmarks auf Expertenniveau können multimodale große Sprachmodelle (MLLMs) das Entdeckungsprozess in realistischen Arbeitsabläufen erheblich verbessern. Derzeit konzentrieren sich jedoch die meisten wissenschaftlichen Benchmarks hauptsächlich auf die Bewertung der Wissensverarbeitungsfähigkeiten von MLLMs, was zu einer unzureichenden Beurteilung ihrer Wahrnehmungs- und Schlussfolgerungsfähigkeiten führt. Um diese Lücke zu schließen, präsentieren wir den Benchmark "Scientists' First Exam" (SFE), der darauf ausgelegt ist, die wissenschaftlichen kognitiven Fähigkeiten von MLLMs durch drei miteinander verbundene Ebenen zu bewerten: wissenschaftliche Signalwahrnehmung, wissenschaftliches Attributverständnis und wissenschaftliches vergleichendes Denken. Insbesondere umfasst SFE 830 von Experten verifizierte VQA-Paare (Visual Question Answering) über drei Fragearten, die 66 multimodale Aufgaben in fünf hochwertigen Disziplinen abdecken. Ausführliche Experimente zeigen, dass aktuelle state-of-the-art-Modelle wie GPT-3 und InternVL-3 bei SFE nur 34,08 % und 26,52 % erreichen, was deutlich zeigt, dass es noch erhebliches Potenzial für Verbesserungen von MLLMs im wissenschaftlichen Bereich gibt. Wir hoffen, dass die Erkenntnisse aus SFE weitere Fortschritte bei künstlich-intelligenzgestützten wissenschaftlichen Entdeckungen fördern werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp