vor 2 Tagen

Eine Übersicht über Benchmark-Tests für große Sprachmodelle

Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang

Details der Forschungsarbeit anzeigen

Eine Übersicht über Benchmark-Tests für große Sprachmodelle

Abstract

In den letzten Jahren sind mit der rasanten Entwicklung der Tiefe und Breite der Fähigkeiten großer Sprachmodelle zunehmend zahlreiche entsprechende Bewertungsbenchmark-Tests entstanden. Als quantitative Bewertungsinstrumente für Modellleistungen stellen Benchmarks nicht nur ein zentrales Mittel zur Messung der Modellkompetenzen dar, sondern auch einen entscheidenden Faktor für die Steuerung der Entwicklungsrichtung und die Förderung technologischer Innovation. Erstmals führen wir eine systematische Übersicht über den aktuellen Stand und die Entwicklung von Benchmark-Tests für große Sprachmodelle durch und kategorisieren 283 repräsentative Benchmarks in drei Kategorien: allgemeine Fähigkeiten, fachspezifische Anwendungen und zielgerichtete Aspekte. Benchmark-Tests für allgemeine Fähigkeiten umfassen Bereiche wie zentrale Linguistik, Wissensbasis und Schlussfolgerungsfähigkeit; fachspezifische Benchmarks konzentrieren sich auf Bereiche wie Naturwissenschaften, Geistes- und Sozialwissenschaften sowie Ingenieurwissenschaften; zielgerichtete Benchmarks befassen sich mit Themen wie Risiken, Zuverlässigkeit und autonome Agenten. Wir weisen darauf hin, dass aktuelle Benchmarks Probleme wie künstlich hochgeschraubte Bewertungsergebnisse aufgrund von Datenkontamination, unfaire Bewertungen aufgrund kultureller und sprachlicher Bias sowie fehlende Evaluierung der Prozessglaubwürdigkeit und dynamischer Umgebungen aufweisen, und bieten einen nachvollziehbaren Gestaltungsansatz für zukünftige Innovationen bei Benchmark-Tests an.