Command Palette
Search for a command to run...
SAGE: Ein realistischer Benchmark für das semantische Verständnis
Samarth Goel Reagan J. Lee Kannan Ramchandran

Abstract
Da große Sprachmodelle (LLMs) auf traditionellen Benchmarks starke Leistungen erzielen, besteht ein dringender Bedarf an anspruchsvolleren Evaluierungsframeworks, die tiefere Aspekte des semantischen Verständnisses abdecken. Wir stellen SAGE (Semantic Alignment & Generalization Evaluation) vor, einen rigorosen Benchmark, der sowohl Embedding-Modelle als auch Similarity-Metriken anhand von fünf Kategorien bewertet: Human Preference Alignment, Transformationsrobustheit, Informationsempfindlichkeit, Clustering-Leistung und Retrieval-Robustheit. Im Gegensatz zu bestehenden Benchmarks, die sich auf isolierte Fähigkeiten konzentrieren, bewertet SAGE das semantische Verständnis unter adversarialen Bedingungen, durch gestörte Transformationen und fein abgestimmte Aufgaben basierend auf menschlicher Beurteilung an über 30 Datensätzen. Unsere umfassende Evaluation von neun Embedding-Modellen und klassischen Metriken offenbart erhebliche Leistungsunterschiede, wobei kein einzelner Ansatz in allen Dimensionen überzeugt. So dominieren beispielsweise state-of-the-art-Embedding-Modelle wie OpenAIs text-embedding-3-large bei der Ausrichtung an menschlichen Präferenzen (0,682 gegenüber 0,591 für die beste klassische Metrik), werden jedoch bei Aufgaben zur Informationsempfindlichkeit deutlich von klassischen Metriken übertroffen – hier erreicht die Jaccard-Ähnlichkeit eine Bewertung von 0,905, während das beste Embedding-Modell lediglich 0,794 erzielt. SAGE deckt zudem entscheidende Kompromisse auf: OpenAIs text-embedding-3-small erreicht die höchste Clustering-Leistung (0,483), zeigt jedoch extreme Fragilität mit dem niedrigsten Robustheitswert (0,011). SAGE offenbart kritische Grenzen der aktuellen Fähigkeiten im semantischen Verständnis und liefert eine realistischere Einschätzung der Modellrobustheit für den Einsatz in der Praxis.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.