Command Palette

Search for a command to run...

4ヶ月前

Claude 3 モデルファミリー:Opus、Sonnet、Haiku

{Anthropic}

Claude 3 モデルファミリー:Opus、Sonnet、Haiku

要約

Claude 3は、新たな大規模マルチモーダルモデルファミリーであり、最も高性能な製品であるClaude 3 Opus、スキルとスピードのバランスを兼ね備えたClaude 3 Sonnet、そして最も高速かつコストが低いClaude 3 Haikuから構成されています。すべての新モデルには視覚処理能力を備えており、画像データの処理および分析が可能となっています。Claude 3ファミリーは、ベンチマーク評価において優れた性能を発揮し、推論、数学、コーディングに関する評価項目において新たな基準を設定しています。Claude 3 Opusは、GPQA[1]、MMLU[2]、MMMU[3]など多くの評価において最先端の成果を達成しています。Claude 3 Haikuは、純粋なテキスト処理タスクにおいて、Claude 2[4]と同等またはそれ以上の性能を発揮しており、SonnetおよびOpusはその大幅な上回っています。さらに、これらのモデルは英語以外の言語における自然な表現力も向上しており、グローバルなユーザー層に向けた多様性と適応性を高めています。本報告書では、核心的な能力、安全性、社会的影響、および「責任あるスケーリングポリシー」において公約した極端リスク評価に焦点を当て、詳細な評価分析を提供します。

ベンチマーク

ベンチマーク方法論指標
arithmetic-reasoning-on-gsm8kClaude 3 Sonnet (0-shot chain-of-thought)
Accuracy: 92.3
arithmetic-reasoning-on-gsm8kClaude 3 Haiku (0-shot chain-of-thought)
Accuracy: 88.9
arithmetic-reasoning-on-gsm8kClaude 3 Opus (0-shot chain-of-thought)
Accuracy: 95
code-generation-on-mbppClaude 3 Haiku
Accuracy: 80.4
code-generation-on-mbppClaude 3 Sonnet
Accuracy: 79.4
code-generation-on-mbppClaude 3 Opus
Accuracy: 86.4
common-sense-reasoning-on-winograndeClaude 3 Opus (5-shot)
Accuracy: 88.5
common-sense-reasoning-on-winograndeClaude 3 Sonnet (5-shot)
Accuracy: 75.1
common-sense-reasoning-on-winograndeClaude 3 Haiku (5-shot)
Accuracy: 74.2
long-context-understanding-on-mmneedleClaude 3 Opus
1 Image, 2*2 Stitching, Exact Accuracy: 52.25
1 Image, 4*4 Stitching, Exact Accuracy: 12.3
1 Image, 8*8 Stitching, Exact Accuracy: 1.6
10 Images, 1*1 Stitching, Exact Accuracy: 66.93
10 Images, 2*2 Stitching, Exact Accuracy: 4.6
10 Images, 4*4 Stitching, Exact Accuracy: 0.4
10 Images, 8*8 Stitching, Exact Accuracy: 0
multi-task-language-understanding-on-mmluClaude 3 Haiku (5-shot)
Average (%): 75.2
multi-task-language-understanding-on-mmluClaude 3 Sonnet (5-shot)
Average (%): 79
question-answering-on-pubmedqaClaude 3 Opus (5-shot)
Accuracy: 75.8
question-answering-on-pubmedqaClaude 3 Opus (zero-shot)
Accuracy: 74.9

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Claude 3 モデルファミリー:Opus、Sonnet、Haiku | 論文 | HyperAI超神経