Command Palette
Search for a command to run...
{Anthropic}

要約
本補足資料は、Claude 3 Model Card の一部として、従来の最高性能モデルである Claude 3 Opus を上回る性能を発揮し、かつより高速かつ低コストで動作する新モデル「Claude 3.5 Sonnet」について説明するものである。Claude 3.5 Sonnet は、より優れたコーディング能力および視覚処理能力を備えており、Claude 3 モデルシリーズの進化版として位置づけられる。そのため、新たなモデルカードの作成ではなく、本補足資料の提供にとどめている。本資料では、最新の主要評価結果および安全性試験の成果を更新して示している。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| code-generation-on-humaneval | GPT-4o (0-shot) | Pass@1: 90.2 |
| mmr-total-on-mrr-benchmark | Claude 3.5 Sonnet | Total Column Score: 463 |
| multi-task-language-understanding-on-mmlu | Claude 3.5 Sonnet (5-shot) | Average (%): 88.7 |
| question-answering-on-newsqa | Anthropic/claude-3-5-sonnet | EM: 74.23 F1: 82.3 |
| visual-question-answering-on-mm-vet | Claude 3.5 Sonnet (claude-3-5-sonnet-20240620) | GPT-4 score: 74.2±0.2 |
| visual-question-answering-on-mm-vet-v2 | Claude 3.5 Sonnet (claude-3-5-sonnet-20240620) | GPT-4 score: 71.8±0.2 |