vor 4 Monaten

Zusammenfassung

Da große Sprachmodelle (LLMs) auf traditionellen Benchmarks starke Leistungen erzielen, besteht ein dringender Bedarf an anspruchsvolleren Evaluierungsframeworks, die tiefere Aspekte des semantischen Verständnisses abdecken. Wir stellen SAGE (Semantic Alignment & Generalization Evaluation) vor, einen rigorosen Benchmark, der sowohl Embedding-Modelle als auch Similarity-Metriken anhand von fünf Kategorien bewertet: Human Preference Alignment, Transformationsrobustheit, Informationsempfindlichkeit, Clustering-Leistung und Retrieval-Robustheit. Im Gegensatz zu bestehenden Benchmarks, die sich auf isolierte Fähigkeiten konzentrieren, bewertet SAGE das semantische Verständnis unter adversarialen Bedingungen, durch gestörte Transformationen und fein abgestimmte Aufgaben basierend auf menschlicher Beurteilung an über 30 Datensätzen. Unsere umfassende Evaluation von neun Embedding-Modellen und klassischen Metriken offenbart erhebliche Leistungsunterschiede, wobei kein einzelner Ansatz in allen Dimensionen überzeugt. So dominieren beispielsweise state-of-the-art-Embedding-Modelle wie OpenAIs text-embedding-3-large bei der Ausrichtung an menschlichen Präferenzen (0,682 gegenüber 0,591 für die beste klassische Metrik), werden jedoch bei Aufgaben zur Informationsempfindlichkeit deutlich von klassischen Metriken übertroffen – hier erreicht die Jaccard-Ähnlichkeit eine Bewertung von 0,905, während das beste Embedding-Modell lediglich 0,794 erzielt. SAGE deckt zudem entscheidende Kompromisse auf: OpenAIs text-embedding-3-small erreicht die höchste Clustering-Leistung (0,483), zeigt jedoch extreme Fragilität mit dem niedrigsten Robustheitswert (0,011). SAGE offenbart kritische Grenzen der aktuellen Fähigkeiten im semantischen Verständnis und liefert eine realistischere Einschätzung der Modellrobustheit für den Einsatz in der Praxis.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Samarth Goel Reagan J. Lee Kannan Ramchandran

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Samarth Goel Reagan J. Lee Kannan Ramchandran

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SAGE: Ein realistischer Benchmark für das semantische Verständnis

Samarth Goel Reagan J. Lee Kannan Ramchandran

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SAGE: Ein realistischer Benchmark für das semantische Verständnis

Samarth Goel Reagan J. Lee Kannan Ramchandran

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SAGE: Ein realistischer Benchmark für das semantische Verständnis

Samarth Goel Reagan J. Lee Kannan Ramchandran

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters