Command Palette

Search for a command to run...

4달 전

클로드 3 모델 패밀리: 오퍼스, 손넷, 하이쿠

{Anthropic}

클로드 3 모델 패밀리: 오퍼스, 손넷, 하이쿠

초록

클라우드 3는 새로운 대규모 다중모달 모델 패밀리로, 가장 강력한 성능을 자랑하는 클라우드 3 오퍼스, 능력과 속도의 균형을 제공하는 클라우드 3 손넷, 그리고 가장 빠르고 비용이 가장 낮은 클라우드 3 하이쿠로 구성되어 있습니다. 모든 새로운 모델은 이미지 데이터를 처리하고 분석할 수 있는 시각 능력을 갖추고 있습니다. 클라우드 3 패밀리는 벤치마크 평가에서 뛰어난 성능을 보이며, 추론, 수학, 코딩 등 핵심 지표에서 새로운 기준을 설정했습니다. 클라우드 3 오퍼스는 GPQA [1], MMLU [2], MMMU [3] 등 다양한 평가에서 최첨단 성능을 기록했습니다. 클라우드 3 하이쿠는 대부분의 순수 텍스트 작업에서 클라우드 2 [4]와 비슷하거나 더 우수한 성능을 보이며, 손넷과 오퍼스는 이에 비해 상당히 뛰어난 성능을 나타냅니다. 또한, 비영어권 언어에 대한 유창성도 향상되어 글로벌 사용자에게 더 넓은 활용 가능성을 제공합니다. 본 보고서에서는 핵심 능력, 안전성, 사회적 영향, 그리고 책임감 있는 확장 정책에서 약속한 치명적 위험 평가를 중심으로 평가 결과를 심층적으로 분석합니다.

벤치마크

벤치마크방법론지표
arithmetic-reasoning-on-gsm8kClaude 3 Sonnet (0-shot chain-of-thought)
Accuracy: 92.3
arithmetic-reasoning-on-gsm8kClaude 3 Haiku (0-shot chain-of-thought)
Accuracy: 88.9
arithmetic-reasoning-on-gsm8kClaude 3 Opus (0-shot chain-of-thought)
Accuracy: 95
code-generation-on-mbppClaude 3 Haiku
Accuracy: 80.4
code-generation-on-mbppClaude 3 Sonnet
Accuracy: 79.4
code-generation-on-mbppClaude 3 Opus
Accuracy: 86.4
common-sense-reasoning-on-winograndeClaude 3 Opus (5-shot)
Accuracy: 88.5
common-sense-reasoning-on-winograndeClaude 3 Sonnet (5-shot)
Accuracy: 75.1
common-sense-reasoning-on-winograndeClaude 3 Haiku (5-shot)
Accuracy: 74.2
long-context-understanding-on-mmneedleClaude 3 Opus
1 Image, 2*2 Stitching, Exact Accuracy: 52.25
1 Image, 4*4 Stitching, Exact Accuracy: 12.3
1 Image, 8*8 Stitching, Exact Accuracy: 1.6
10 Images, 1*1 Stitching, Exact Accuracy: 66.93
10 Images, 2*2 Stitching, Exact Accuracy: 4.6
10 Images, 4*4 Stitching, Exact Accuracy: 0.4
10 Images, 8*8 Stitching, Exact Accuracy: 0
multi-task-language-understanding-on-mmluClaude 3 Haiku (5-shot)
Average (%): 75.2
multi-task-language-understanding-on-mmluClaude 3 Sonnet (5-shot)
Average (%): 79
question-answering-on-pubmedqaClaude 3 Opus (5-shot)
Accuracy: 75.8
question-answering-on-pubmedqaClaude 3 Opus (zero-shot)
Accuracy: 74.9

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
클로드 3 모델 패밀리: 오퍼스, 손넷, 하이쿠 | 연구 논문 | HyperAI초신경