HyperAIHyperAI

Command Palette

Search for a command to run...

Chinesischer Forscher erhält internationale Auszeichnung für Forschung zu Unterschieden zwischen KI und menschlichem Denken

Auf der 47. Jahrestagung der International Cognitive Science Society (CogSci2025) wurde eine bahnbrechende Studie aus China mit dem renommierten „Diversity & Social Inequality Award“ ausgezeichnet – dem einzigen Preis dieser Art im Jahr 2025. Die Forschungsarbeit, titelnd „AIPsychoBench: Understanding the Psychometric Differences between LLM and Humans“, wurde von einem Team aus der Fakultät für Informatik der Nationalen Universität der Verteidigungstechnologie (NUDT), dem Institut für Informationsingenieurwesen der Chinesischen Akademie der Wissenschaften und der Singapore-Massachusetts Institute of Technology Alliance (SMART) durchgeführt. Dies ist der erste Erfolg chinesischer Wissenschaftler bei diesem prestigeträchtigen Preis, der bisher ausschließlich von Forschern aus renommierten US-amerikanischen Institutionen wie Yale und Stanford gewonnen wurde. Die International Cognitive Science Society gilt als führende internationale Fachgesellschaft, die Experten aus KI, Psychologie, Neurowissenschaften, Philosophie, Linguistik und anderen Disziplinen vereint. Der „Diversity & Social Inequality Award“ zeichnet Forschung aus, die die kognitive Vielfalt und soziale Ungleichheit im Kontext der Kognitionswissenschaft untersucht – ein Bereich, der zunehmend an Bedeutung gewinnt. Die Studie adressiert ein zentrales Problem im Bereich großer Sprachmodelle (LLM): die psychometrische Validität bei der Messung menschenähnlicher psychologischer Merkmale. Obwohl LLMs durch umfangreiche menschliche Daten trainiert werden und teilweise menschenähnliche Intelligenz zeigen, fehlt es an einem verlässlichen Rahmen, um ihre kognitiven Muster zu messen. Zwei zentrale Herausforderungen bestehen: Erstens führt die „Alignment-Training“-Praxis dazu, dass LLMs oft neutral oder abweichend antworten, wenn sie psychologischen Fragebögen ausgesetzt werden – beispielsweise mit Aussagen wie „Ich kann keine menschlichen Veranstaltungen besuchen“, was die Erfassung von Präferenzen unmöglich macht. Zweitens zeigt das Modell je nach Sprache unterschiedliche Antworten, obwohl der Inhalt gleich ist – ein Phänomen, das als „kulturelle Sprachabhängigkeit“ bezeichnet wird. So bevorzugt ein Modell bei englischen Fragen direkte Antworten, bei chinesischen hingegen eher vermittelnde Formulierungen. Um diese Probleme zu lösen, entwickelte das Team einen standardisierten Ansatz: Sie sammelten 21 psychologische Skalen mit insgesamt 777 Fragen, die in acht Sprachen (inklusive Englisch, Chinesisch, Russisch, Französisch, Spanisch, Arabisch, Deutsch und Japanisch) übersetzt wurden. Durch eine „leichte Rollenspiel-Strategie“ wurde das Modell dazu gebracht, als fiktiver Befragter zu antworten, wodurch die Effektivität der Antworten um bis zu 41 % stieg, ohne starke kognitive Verzerrungen zu erzeugen. Zudem wurde GPT-4o als „Reviewer“ eingesetzt, um die Kohärenz von Skalenbewertung und Texterklärung zu überprüfen. Die Ergebnisse zeigten, dass Sprache ein entscheidender Faktor für die psychologische Messung von LLMs ist – mit Abweichungen bis zu 20 % bei religiösen Themen in arabischer Sprache. Die Studie legt die Grundlage für ein neues Forschungsfeld: die „Maschinenpsychologie“. Sie bietet erstmals eine standardisierte, mehrsprachige, verlässliche Datensammlung (AIPsychoBench) und zeigt, dass LLMs nicht nur „künstlich“ reagieren, sondern durch ihre Sprach- und Kulturlernung tatsächlich unterschiedliche „psychologische Profile“ aufweisen können. Dies ist ein bedeutender Schritt hin zu einer verantwortungsvollen und nachvollziehbaren Nutzung von KI in sensiblen Bereichen wie Gesundheit, Bildung und Recht. Parallel dazu entwickelte der Doktorand蔺奇卡 (Lín Qíkǎ) von der National University of Singapore (NUS) gemeinsam mit Kollegen das Medizin-Modell DeepMedix-R1. Es analysiert Thorax-Röntgenbilder und generiert strukturierte, nachvollziehbare Schlussfolgerungen, die an spezifische Bildregionen gebunden sind. Durch die Kombination von hochwertigen synthetischen Trainingsdaten und Online-Verstärkungslernen erreicht es hohe Genauigkeit und Transparenz. Es kann Ärzten helfen, Diagnosen schneller und sicherer zu stellen – besonders in Ressourcenarmen Regionen oder bei Fernmedizin. Obwohl noch Verbesserungsbedarf bei der Genauigkeit der Schlussfolgerungen besteht, zeigt das Modell, dass KI in der Medizin nicht nur leistungsfähig, sondern auch vertrauenswürdig sein kann – wenn sie transparent und anwendungsorientiert entwickelt wird.

Verwandte Links