HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Die Claude 3 Modellfamilie: Opus, Sonnet, Haiku

{Anthropic}

Die Claude 3 Modellfamilie: Opus, Sonnet, Haiku

Abstract

Wir stellen Claude 3 vor, eine neue Familie großer multimodaler Modelle – Claude 3 Opus, unsere leistungsstärkste Variante, Claude 3 Sonnet, die ein optimales Gleichgewicht aus Fähigkeiten und Geschwindigkeit bietet, sowie Claude 3 Haiku, unser schnellstes und kostengünstigstes Modell. Alle neuen Modelle verfügen über visuelle Fähigkeiten, die es ihnen ermöglichen, Bilddaten zu verarbeiten und zu analysieren. Die Claude-3-Familie zeigt herausragende Leistung bei Benchmark-Evaluierungen und setzt neue Maßstäbe hinsichtlich der Fähigkeiten in Denken, Mathematik und Programmierung. Claude 3 Opus erreicht state-of-the-art-Ergebnisse bei Bewertungen wie GPQA [1], MMLU [2], MMMU [3] und vielen weiteren. Claude 3 Haiku erzielt auf den meisten rein textbasierten Aufgaben Ergebnisse, die gleich gut oder besser sind als die von Claude 2 [4], während Sonnet und Opus diese deutlich übertreffen. Zudem zeigen diese Modelle eine verbesserte Flüssigkeit in nicht-englischen Sprachen, was sie für ein globales Publikum vielseitiger macht. In diesem Bericht bieten wir eine detaillierte Analyse unserer Evaluierungen mit Fokus auf zentrale Fähigkeiten, Sicherheit, gesellschaftliche Auswirkungen sowie die katastrophalen Risikobewertungen, die wir in unserer Richtlinie für verantwortungsvolles Skalieren zugesagt haben.

Benchmarks

BenchmarkMethodikMetriken
arithmetic-reasoning-on-gsm8kClaude 3 Sonnet (0-shot chain-of-thought)
Accuracy: 92.3
arithmetic-reasoning-on-gsm8kClaude 3 Haiku (0-shot chain-of-thought)
Accuracy: 88.9
arithmetic-reasoning-on-gsm8kClaude 3 Opus (0-shot chain-of-thought)
Accuracy: 95
code-generation-on-mbppClaude 3 Haiku
Accuracy: 80.4
code-generation-on-mbppClaude 3 Sonnet
Accuracy: 79.4
code-generation-on-mbppClaude 3 Opus
Accuracy: 86.4
common-sense-reasoning-on-winograndeClaude 3 Opus (5-shot)
Accuracy: 88.5
common-sense-reasoning-on-winograndeClaude 3 Sonnet (5-shot)
Accuracy: 75.1
common-sense-reasoning-on-winograndeClaude 3 Haiku (5-shot)
Accuracy: 74.2
long-context-understanding-on-mmneedleClaude 3 Opus
1 Image, 2*2 Stitching, Exact Accuracy: 52.25
1 Image, 4*4 Stitching, Exact Accuracy: 12.3
1 Image, 8*8 Stitching, Exact Accuracy: 1.6
10 Images, 1*1 Stitching, Exact Accuracy: 66.93
10 Images, 2*2 Stitching, Exact Accuracy: 4.6
10 Images, 4*4 Stitching, Exact Accuracy: 0.4
10 Images, 8*8 Stitching, Exact Accuracy: 0
multi-task-language-understanding-on-mmluClaude 3 Haiku (5-shot)
Average (%): 75.2
multi-task-language-understanding-on-mmluClaude 3 Sonnet (5-shot)
Average (%): 79
question-answering-on-pubmedqaClaude 3 Opus (5-shot)
Accuracy: 75.8
question-answering-on-pubmedqaClaude 3 Opus (zero-shot)
Accuracy: 74.9

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Claude 3 Modellfamilie: Opus, Sonnet, Haiku | Forschungsarbeiten | HyperAI