HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

SAGE: Ein realistischer Benchmark für das semantische Verständnis

Samarth Goel Reagan J. Lee Kannan Ramchandran

SAGE: Ein realistischer Benchmark für das semantische Verständnis

Abstract

Da große Sprachmodelle (LLMs) auf traditionellen Benchmarks starke Leistungen erzielen, besteht ein dringender Bedarf an anspruchsvolleren Evaluierungsframeworks, die tiefere Aspekte des semantischen Verständnisses abdecken. Wir stellen SAGE (Semantic Alignment & Generalization Evaluation) vor, einen rigorosen Benchmark, der sowohl Embedding-Modelle als auch Similarity-Metriken anhand von fünf Kategorien bewertet: Human Preference Alignment, Transformationsrobustheit, Informationsempfindlichkeit, Clustering-Leistung und Retrieval-Robustheit. Im Gegensatz zu bestehenden Benchmarks, die sich auf isolierte Fähigkeiten konzentrieren, bewertet SAGE das semantische Verständnis unter adversarialen Bedingungen, durch gestörte Transformationen und fein abgestimmte Aufgaben basierend auf menschlicher Beurteilung an über 30 Datensätzen. Unsere umfassende Evaluation von neun Embedding-Modellen und klassischen Metriken offenbart erhebliche Leistungsunterschiede, wobei kein einzelner Ansatz in allen Dimensionen überzeugt. So dominieren beispielsweise state-of-the-art-Embedding-Modelle wie OpenAIs text-embedding-3-large bei der Ausrichtung an menschlichen Präferenzen (0,682 gegenüber 0,591 für die beste klassische Metrik), werden jedoch bei Aufgaben zur Informationsempfindlichkeit deutlich von klassischen Metriken übertroffen – hier erreicht die Jaccard-Ähnlichkeit eine Bewertung von 0,905, während das beste Embedding-Modell lediglich 0,794 erzielt. SAGE deckt zudem entscheidende Kompromisse auf: OpenAIs text-embedding-3-small erreicht die höchste Clustering-Leistung (0,483), zeigt jedoch extreme Fragilität mit dem niedrigsten Robustheitswert (0,011). SAGE offenbart kritische Grenzen der aktuellen Fähigkeiten im semantischen Verständnis und liefert eine realistischere Einschätzung der Modellrobustheit für den Einsatz in der Praxis.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SAGE: Ein realistischer Benchmark für das semantische Verständnis | Forschungsarbeiten | HyperAI