HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

عائلة نموذج كلاود 3: أوبيوس، سونيت، هايكو

{Anthropic}

عائلة نموذج كلاود 3: أوبيوس، سونيت، هايكو

الملخص

نقدّم "كلود 3"، عائلة جديدة من النماذج الكبيرة متعددة الوسائط: كلود 3 أوبيس، الأكثر قدرة لدينا، وكلود 3 سونيت، الذي يجمع بين المهارات والسرعة، وكلود 3 هايكو، أسرع نموذج لدينا وأقل تكلفة. جميع النماذج الجديدة تمتلك قدرات رؤية تتيح لها معالجة وتحليل بيانات الصور. وتُظهر عائلة كلود 3 أداءً قويًا في اختبارات المعايير، وتحدد معيارًا جديدًا في قياسات الاستدلال والرياضيات والبرمجة. ويحقق كلود 3 أوبيس نتائج رائدة في مجالات متقدمة مثل GPQA [1]، MMLU [2]، MMMU [3]، وأكثر من ذلك. ويُقدّم كلود 3 هايكو أداءً مماثلًا أو أفضل من كلود 2 [4] في معظم المهام النصية البحتة، بينما تتفوّق كل من سونيت وأوبيس بشكل كبير على هذا الأخير. بالإضافة إلى ذلك، تُظهر هذه النماذج تحسنًا في سلاسة الأداء باللغات غير الإنجليزية، مما يجعلها أكثر مرونة لخدمة جمهور عالمي. وفي هذا التقرير، نقدّم تحليلًا متعمقًا لاختباراتنا، مع التركيز على القدرات الأساسية، والأمان، والآثار الاجتماعية، وتقييمات المخاطر الكارثية التي تعهّدنا بها في سياسة التوسع المسؤولة الخاصة بنا.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
arithmetic-reasoning-on-gsm8kClaude 3 Sonnet (0-shot chain-of-thought)
Accuracy: 92.3
arithmetic-reasoning-on-gsm8kClaude 3 Haiku (0-shot chain-of-thought)
Accuracy: 88.9
arithmetic-reasoning-on-gsm8kClaude 3 Opus (0-shot chain-of-thought)
Accuracy: 95
code-generation-on-mbppClaude 3 Haiku
Accuracy: 80.4
code-generation-on-mbppClaude 3 Sonnet
Accuracy: 79.4
code-generation-on-mbppClaude 3 Opus
Accuracy: 86.4
common-sense-reasoning-on-winograndeClaude 3 Opus (5-shot)
Accuracy: 88.5
common-sense-reasoning-on-winograndeClaude 3 Sonnet (5-shot)
Accuracy: 75.1
common-sense-reasoning-on-winograndeClaude 3 Haiku (5-shot)
Accuracy: 74.2
long-context-understanding-on-mmneedleClaude 3 Opus
1 Image, 2*2 Stitching, Exact Accuracy: 52.25
1 Image, 4*4 Stitching, Exact Accuracy: 12.3
1 Image, 8*8 Stitching, Exact Accuracy: 1.6
10 Images, 1*1 Stitching, Exact Accuracy: 66.93
10 Images, 2*2 Stitching, Exact Accuracy: 4.6
10 Images, 4*4 Stitching, Exact Accuracy: 0.4
10 Images, 8*8 Stitching, Exact Accuracy: 0
multi-task-language-understanding-on-mmluClaude 3 Haiku (5-shot)
Average (%): 75.2
multi-task-language-understanding-on-mmluClaude 3 Sonnet (5-shot)
Average (%): 79
question-answering-on-pubmedqaClaude 3 Opus (5-shot)
Accuracy: 75.8
question-answering-on-pubmedqaClaude 3 Opus (zero-shot)
Accuracy: 74.9

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
عائلة نموذج كلاود 3: أوبيوس، سونيت، هايكو | الأوراق البحثية | HyperAI