CEO von Surge AI warnt vor oberflächlicher KI-Entwicklung
Surge AI-Chef Edwin Chen warnt davor, dass Unternehmen bei der Entwicklung künstlicher Intelligenz statt echter Fortschritte in Bereichen wie Krebsforschung oder Armutslösung auf „AI-Slop“ setzen – also auf oberflächliche, spektakuläre, aber wenig sinnvolle Ergebnisse. In einem Podcast-Interview mit „Lenny’s“ kritisierte er, dass die Branche derzeit darauf abziele, Modelle zu optimieren, die bei kurzen, oberflächlichen Bewertungen gut abschneiden, anstatt wissenschaftliche oder gesellschaftliche Herausforderungen zu lösen. „Wir lehren unsere Modelle, nach Dopamin statt nach Wahrheit zu suchen“, sagte Chen, der 2020 nach Tätigkeiten bei Twitter, Google und Meta Surge AI gründete. Das Unternehmen betreibt die Plattform Data Annotation, die über eine Million Freiberufler beschäftigt, um KI-Modelle zu trainieren, und zählt Anthropic als Kunden. Chen wirft den gängigen Benchmark-Plattformen wie LMArena vor, die Entwicklung von KI zu verzerren. Diese Rankings basieren oft auf schnellen, emotionellen Urteilen von Nutzern, die Antworten in zwei Sekunden überfliegen und das „flamboyanteste“ Ergebnis wählen – was, so Chen, derartige Modelle zu „Tabloid-Intelligenz“ macht. Trotz der kritischen Bewertung seien Unternehmen gezwungen, auf diese Leaderboards zu achten, da sie in Verkaufsgesprächen gefragt werden. Auch andere Experten teilen diese Sicht: Dean Valentine, CEO von ZeroPath, bezeichnete kürzlich die Fortschritte in der KI-Entwicklung als „hauptsächlich Bullshit“, da neuere Modelle, trotz behaupteter Verbesserungen, in seinen Tests keine signifikanten Fortschritte in der Fehlererkennung oder generellen Leistung zeigten. Sie seien „unterhaltsamer im Gespräch“, aber nicht wirtschaftlich nützlich oder allgemein anwendbar. Ein Forschungsbericht des Europäischen Kommissions-Joint Research Centers aus Februar 2024 bestätigt diese Kritik: Benchmarks seien stark von kommerziellen und kulturellen Interessen geprägt, wodurch die Bewertung von KI-Modellen oft die Realnützlichkeit vernachlässige. Zudem wird immer wieder die Praxis des „Gaming“ von Benchmarks kritisiert. So geriet Meta im April in die Kritik, nachdem es zwei neue Llama-Modelle vorgestellt hatte, die angeblich bessere Ergebnisse erzielten als Konkurrenzmodelle. LMArena erklärte, dass Meta eine speziell für die Testumgebung optimierte Version des Modells eingesandt hatte, ohne dies ausreichend zu dokumentieren – was die Glaubwürdigkeit der Benchmark in Frage stellte. In der Branche wächst die Erkenntnis, dass der Fokus auf Rekordwerten und visuell ansprechenden Antworten die langfristige Entwicklung von KI behindert. Experten fordern eine Neuausrichtung hin zu messbaren, gesellschaftlich relevanten Leistungen – von der medizinischen Forschung bis zur Klimaforschung. Die aktuelle Entwicklung zeigt, dass der technologische Fortschritt nicht automatisch mit sozialem Nutzen einhergeht, und dass die KI-Industrie dringend eine kritische Selbstreflexion braucht, um nicht in der Oberflächlichkeit stecken zu bleiben.
