HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

La famille de modèles Claude 3 : Opus, Sonnet, Haiku

{Anthropic}

La famille de modèles Claude 3 : Opus, Sonnet, Haiku

Résumé

Nous présentons Claude 3, une nouvelle famille de modèles multimodaux de grande taille – Claude 3 Opus, notre offre la plus performante, Claude 3 Sonnet, qui allie compétences et rapidité, et Claude 3 Haiku, notre modèle le plus rapide et le moins coûteux. Tous ces nouveaux modèles intègrent des capacités visuelles leur permettant de traiter et d’analyser des données d’image. La famille Claude 3 démontre des performances solides sur les évaluations standardisées et établit une nouvelle référence en matière de raisonnement, de mathématiques et de programmation. Claude 3 Opus atteint des résultats de pointe sur des évaluations telles que GPQA [1], MMLU [2], MMMU [3], et bien d’autres encore. Claude 3 Haiku se comporte aussi bien ou mieux que Claude 2 [4] sur la plupart des tâches textuelles pures, tandis que Sonnet et Opus les surpassent de manière significative. En outre, ces modèles affichent une fluidité améliorée dans les langues autres que l’anglais, ce qui les rend plus polyvalents pour une audience mondiale. Dans ce rapport, nous proposons une analyse approfondie de nos évaluations, en mettant l’accent sur les capacités fondamentales, la sécurité, les impacts sociétaux, ainsi que les évaluations des risques catastrophiques auxquelles nous nous étions engagés dans notre Politique de développement responsable.

Benchmarks

BenchmarkMéthodologieMétriques
arithmetic-reasoning-on-gsm8kClaude 3 Sonnet (0-shot chain-of-thought)
Accuracy: 92.3
arithmetic-reasoning-on-gsm8kClaude 3 Haiku (0-shot chain-of-thought)
Accuracy: 88.9
arithmetic-reasoning-on-gsm8kClaude 3 Opus (0-shot chain-of-thought)
Accuracy: 95
code-generation-on-mbppClaude 3 Haiku
Accuracy: 80.4
code-generation-on-mbppClaude 3 Sonnet
Accuracy: 79.4
code-generation-on-mbppClaude 3 Opus
Accuracy: 86.4
common-sense-reasoning-on-winograndeClaude 3 Opus (5-shot)
Accuracy: 88.5
common-sense-reasoning-on-winograndeClaude 3 Sonnet (5-shot)
Accuracy: 75.1
common-sense-reasoning-on-winograndeClaude 3 Haiku (5-shot)
Accuracy: 74.2
long-context-understanding-on-mmneedleClaude 3 Opus
1 Image, 2*2 Stitching, Exact Accuracy: 52.25
1 Image, 4*4 Stitching, Exact Accuracy: 12.3
1 Image, 8*8 Stitching, Exact Accuracy: 1.6
10 Images, 1*1 Stitching, Exact Accuracy: 66.93
10 Images, 2*2 Stitching, Exact Accuracy: 4.6
10 Images, 4*4 Stitching, Exact Accuracy: 0.4
10 Images, 8*8 Stitching, Exact Accuracy: 0
multi-task-language-understanding-on-mmluClaude 3 Haiku (5-shot)
Average (%): 75.2
multi-task-language-understanding-on-mmluClaude 3 Sonnet (5-shot)
Average (%): 79
question-answering-on-pubmedqaClaude 3 Opus (5-shot)
Accuracy: 75.8
question-answering-on-pubmedqaClaude 3 Opus (zero-shot)
Accuracy: 74.9

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
La famille de modèles Claude 3 : Opus, Sonnet, Haiku | Articles de recherche | HyperAI