LLM-Rankings können trügerisch sein – kleine Datenmengen beeinflussen Ergebnisse stark
Unternehmen, die große Sprachmodelle (LLM) für Aufgaben wie die Zusammenfassung von Verkaufsberichten oder die Priorisierung von Kundenanfragen einsetzen, stützen sich oft auf Ranking-Plattformen, die Modelle anhand von Nutzerbewertungen vergleichen. Doch eine Studie des Massachusetts Institute of Technology (MIT) zeigt, dass diese Bewertungen äußerst empfindlich gegenüber wenigen Datenpunkten sind. Forscher um Tamara Broderick, Associate Professor am Department of Electrical Engineering and Computer Science (EECS), fanden heraus, dass bereits zwei oder drei Nutzerbewertungen unter Tausenden die Rangfolge entscheidend verändern können – was die Zuverlässigkeit solcher Rankings in Frage stellt. Die Studie untersuchte verschiedene Plattformen, darunter solche, die Crowdsourcing nutzen und solche mit Expertenbewertungen. In einer Plattform mit über 57.000 Bewertungen veränderte das Entfernen von nur zwei Stimmen die Top-Modelle. In einer qualitativ hochwertigeren Plattform mit Experten wurden 83 von 2.575 Bewertungen benötigt, um die Rangfolge zu ändern. Die Analyse offenbarte, dass viele beeinflussende Stimmen auf menschliche Fehler wie Fehlklicks oder mangelnde Aufmerksamkeit zurückgingen. Um die Sensitivität zu testen, entwickelten die Forscher eine effiziente Approximationsmethode, die auf früheren Arbeiten zur statistischen Generalisierung basiert. Diese ermöglicht es, diejenigen Bewertungen zu identifizieren, die den größten Einfluss auf die Rangliste haben, ohne alle möglichen Datensubsets manuell zu testen – eine praktisch unmögliche Aufgabe bei Datenmengen in der Größenordnung von 10¹⁹⁴. Die Methode liefert konkrete Hinweise auf problematische Datenpunkte, sodass Nutzer diese entfernen und die Rangliste erneut prüfen können. Die Ergebnisse zeigen, dass die Annahme, ein Top-Modell sei generell überlegen, nicht immer gerechtfertigt ist, wenn die Rangfolge von wenigen Ausreißern abhängt. Die Forscher schlagen vor, detailliertere Feedback-Elemente wie Nutzerzuversichtlichkeit oder zusätzliche Kommentare zu sammeln, um die Robustheit der Bewertungen zu erhöhen. Auch die Einbindung menschlicher Mediatoren zur Überprüfung von Bewertungen könnte helfen. Die Studie warnt eindringlich davor, Entscheidungen über kritische Unternehmensanwendungen allein auf Basis solcher Rankings zu treffen. „Wenn die Spitzenposition eines Modells von nur zwei Stimmen abhängt, kann man nicht sicher sein, dass es auch in der Praxis besser abschneidet“, sagt Broderick. Experten wie Jessica Hullman von der Northwestern University würdigen die Arbeit als wichtigen Beitrag zur Erkenntnis, wie fragil Methoden zur Aggregation menschlicher Präferenzen sein können. Die Forschung wird unter anderem vom Office of Naval Research, der MIT-IBM Watson AI Lab, der National Science Foundation, Amazon und einem CSAIL Seed Award gefördert. Die Ergebnisse werden auf der International Conference on Learning Representations vorgestellt und tragen zur Entwicklung robusterer Evaluationsmethoden für LLMs bei.
