HyperAI

Als neue Versionen von künstlichen Intelligenz-Sprachmodellen immer häufiger veröffentlicht werden, behaupten viele, ihre Leistung sei verbessert. Die Beweisführung für diese Ansprüche und der Aufbau von Vertrauen, dass die neuen Modelle tatsächlich besser sind, bleiben jedoch eine kostspielige und herausfordernde Aufgabe für das Feld. Typischerweise unterziehen Entwickler neue Modelle einer Vielzahl von Benchmark-Fragen, um ihre Qualität zu beweisen. Diese Fragenbanken können Hunderttausende von Fragen umfassen, deren Antworten von Menschen überprüft werden müssen, was Zeit und Kosten verursacht. Praktische Einschränkungen erfordern, dass nur ein Teil der Fragen ausgewählt wird, was das Risiko erhöht, dass Verbesserungen aufgrund einfacherer Fragen übertrieben werden. Stanford-Forscher haben nun eine kosteneffektive Methode zur Bewertung dieser Modelle vorgestellt, die im Rahmen des International Conference on Machine Learning (ICML) 2025 publiziert wurde. Sanmi Koyejo, Professor für Informatik an der School of Engineering, leitete die Forschung. „Der entscheidende Beobachtungsansatz ist, dass man auch die Schwierigkeit der Fragen berücksichtigen muss“, sagte Koyejo. „Einige Modelle können durch Zufall bessere oder schlechtere Ergebnisse erzielen. Wir versuchen, dies vorauszusehen und anzupassen, um Vergleiche gerechter zu gestalten.“ Sang Truong, Doktorand am Stanford Artificial Intelligence Lab (SAIL), ergänzte: „Dieser Evaluationsprozess kann oft so viel oder sogar mehr kosten als das Training selbst. Wir haben eine Infrastruktur entwickelt, die es uns ermöglicht, Teilmengen von Fragen basierend auf ihrer Schwierigkeit adaptiv auszuwählen. Das bringt Gleichheit ins Spiel.“ Um ihr Ziel zu erreichen, haben Koyejo, Truong und ihre Kollegen ein Jahrzehnte altes Konzept aus der Bildungswissenschaft, die Item Response Theory, übernommen. Diese Theorie berücksichtigt die Fragestellungsschwierigkeit bei der Bewertung von Testenden. Koyejo vergleicht es mit Standardtests wie dem SAT, bei denen jede richtige oder falsche Antwort die folgende Frage beeinflusst. Die Forscher verwenden Sprachmodelle, um Fragen zu analysieren und nach Schwierigkeit zu bewerten, wodurch die Kosten um bis zu 80% gesenkt werden können. Diese Bewertung ermöglicht den Vergleich der relativen Leistung von zwei Modellen. Um eine große, vielfältige und gut kalibrierte Fragenbank kosteneffektiv zu erstellen, nutzen die Forscher die generativen Fähigkeiten der KI. Ein Fragegenerator kann auf jedes gewünschte Schwierigkeitsniveau angepasst werden, was die Automatisierung der Ergänzung und Reinigung der Fragenbank fördert. Mit besser gestalteten Fragen können andere im Bereich KI effizientere Leistungsbewertungen mit deutlich weniger Fragen durchführen. Dieses Vorgehen ist schneller, gerechter und weniger teuer. Die neue Methode funktioniert auch in verschiedenen Wissensbereichen, von Medizin und Mathematik bis hin zu Recht. Koyejo hat das System an 22 Datensätzen und 172 Sprachmodellen getestet und festgestellt, dass es sich leicht an neue Modelle und Fragen anpassen lässt. Ihr Ansatz konnte subtile Veränderungen in der Sicherheit von GPT 3.5 im Laufe der Zeit verfolgen, die zuerst verbessert und dann in einigen Variationen im Jahr 2023 zurückgegangen waren. Die Sicherheit eines Sprachmodells ist ein Maß dafür, wie robust es gegenüber Datenmanipulation, feindlichen Angriffen und anderen Risiken ist. Während die zuverlässige Bewertung von Sprachmodellen früher teuer und inkonsistent war, ermöglicht die neue Item Response Theory-Methode rigorose, skalierbare und adaptive Evaluationsmöglichkeiten. Für Entwickler bedeutet dies bessere Diagnosen und genaue Leistungsbewertungen. Für Benutzer bedeutet es gerechtere und transparentere Modellbewertungen. „Und für alle anderen“, sagte Koyejo, „bedeutet es rascher Fortschritt und größeres Vertrauen in die schnell entwickelnden Tools der künstlichen Intelligenz.“ Experten loben die neue Methode für ihre Fähigkeit, die Kosteneffizienz und die Genauigkeit der Evaluationsprozesse zu steigern. Das Stanford Artificial Intelligence Lab (SAIL) ist ein führendes Institut für Forschung und Entwicklung in der KI, bekannt für innovative Ansätze und Methoden. Die breitere Akzeptanz und Anwendung dieser Methode könnte dazu beitragen, die Entwicklung und Verifizierung von Sprachmodellen zu beschleunigen und zu standardisieren, was wiederum das Vertrauen der Nutzer in diese Technologie stärken wird.

Verwandte Links

Verwandte Links

Verwandte Links

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Command Palette

Neue Methode verbessert Effizienz und Fairness der KI-Sprachmodelle Bewertung.

Verwandte Links

Command Palette

Neue Methode verbessert Effizienz und Fairness der KI-Sprachmodelle Bewertung.

Verwandte Links

Command Palette

Neue Methode verbessert Effizienz und Fairness der KI-Sprachmodelle Bewertung.

Verwandte Links

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025