Command Palette
Search for a command to run...
{Anthropic}

要約
Claude 3は、新たな大規模マルチモーダルモデルファミリーであり、最も高性能な製品であるClaude 3 Opus、スキルとスピードのバランスを兼ね備えたClaude 3 Sonnet、そして最も高速かつコストが低いClaude 3 Haikuから構成されています。すべての新モデルには視覚処理能力を備えており、画像データの処理および分析が可能となっています。Claude 3ファミリーは、ベンチマーク評価において優れた性能を発揮し、推論、数学、コーディングに関する評価項目において新たな基準を設定しています。Claude 3 Opusは、GPQA[1]、MMLU[2]、MMMU[3]など多くの評価において最先端の成果を達成しています。Claude 3 Haikuは、純粋なテキスト処理タスクにおいて、Claude 2[4]と同等またはそれ以上の性能を発揮しており、SonnetおよびOpusはその大幅な上回っています。さらに、これらのモデルは英語以外の言語における自然な表現力も向上しており、グローバルなユーザー層に向けた多様性と適応性を高めています。本報告書では、核心的な能力、安全性、社会的影響、および「責任あるスケーリングポリシー」において公約した極端リスク評価に焦点を当て、詳細な評価分析を提供します。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | Claude 3 Sonnet (0-shot chain-of-thought) | Accuracy: 92.3 |
| arithmetic-reasoning-on-gsm8k | Claude 3 Haiku (0-shot chain-of-thought) | Accuracy: 88.9 |
| arithmetic-reasoning-on-gsm8k | Claude 3 Opus (0-shot chain-of-thought) | Accuracy: 95 |
| code-generation-on-mbpp | Claude 3 Haiku | Accuracy: 80.4 |
| code-generation-on-mbpp | Claude 3 Sonnet | Accuracy: 79.4 |
| code-generation-on-mbpp | Claude 3 Opus | Accuracy: 86.4 |
| common-sense-reasoning-on-winogrande | Claude 3 Opus (5-shot) | Accuracy: 88.5 |
| common-sense-reasoning-on-winogrande | Claude 3 Sonnet (5-shot) | Accuracy: 75.1 |
| common-sense-reasoning-on-winogrande | Claude 3 Haiku (5-shot) | Accuracy: 74.2 |
| long-context-understanding-on-mmneedle | Claude 3 Opus | 1 Image, 2*2 Stitching, Exact Accuracy: 52.25 1 Image, 4*4 Stitching, Exact Accuracy: 12.3 1 Image, 8*8 Stitching, Exact Accuracy: 1.6 10 Images, 1*1 Stitching, Exact Accuracy: 66.93 10 Images, 2*2 Stitching, Exact Accuracy: 4.6 10 Images, 4*4 Stitching, Exact Accuracy: 0.4 10 Images, 8*8 Stitching, Exact Accuracy: 0 |
| multi-task-language-understanding-on-mmlu | Claude 3 Haiku (5-shot) | Average (%): 75.2 |
| multi-task-language-understanding-on-mmlu | Claude 3 Sonnet (5-shot) | Average (%): 79 |
| question-answering-on-pubmedqa | Claude 3 Opus (5-shot) | Accuracy: 75.8 |
| question-answering-on-pubmedqa | Claude 3 Opus (zero-shot) | Accuracy: 74.9 |