يحتوي هذا التقرير على بطاقة النموذج [1] الخاصة بنماذج كلاود، مع التركيز على نموذج كلاود 2، إلى جانب نتائج مجموعة من التقييمات المتعلقة بالسلامة والتوافق والقدرات. لقد كنا نُجري تطويرًا مستمرًا لتدريب وتقييم نماذج كلاود منذ أعمالنا الأولى في التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) [2]؛ حيث يُعدّ النموذج الجديد كلاود 2 تطورًا مستمرًا عن النماذج المبكرة الأقل قدرة التي كانت تُعرف بـ"المساعدين اللطفاء وغير الضارين" في اللغة.ليس الغرض من هذا التقرير أن يكون ورقة علمية، إذ تم وثائق معظم جوانب تدريب وتقييم هذه النماذج في أوراق بحثية سابقة. وتشمل هذه الأوراق أوراقًا حول نمذجة التفضيلات [3]، والتعلم المعزز من التغذية الراجعة البشرية للنماذج المساعدة وغير الضارة [2]، وعملية اختبار النماذج باستخدام فرق "التحقيق الأحمر" (Red Teaming) [4]، وقياس تمثيل القيم العالمية الذاتية في النماذج اللغوية [5]، والصدق (أي استكشاف قدرة النماذج اللغوية على التعرف على ما تعرفه) [6]، وتقييم النماذج اللغوية باستخدام اختبارات يتم إنشاؤها بواسطة نماذج لغوية أخرى [7]، والتصحيح الأخلاقي الذاتي [8]، وذكاء اصطناعي دستوري [9]. كما ناقشنا أيضًا الدستور الخاص بكلاود في منشور مدونة حديث [10]. وتم وثائق عملنا المتعلق بتقييم السلامة باستخدام التقييمات البشرية بشكل مفصل في ورقة بحثية بعنوان "اختبار النماذج اللغوية باستخدام فرق التحقيق الأحمر لتقليل الأذى" [4]، في حين تم وثائق عملنا الأخير حول التقييم الآلي للسلامة في ورقة بعنوان "اكتشاف سلوكيات النماذج اللغوية باستخدام تقييمات مكتوبة من قبل النموذج نفسه" [7].كما أن هذا التقرير ليس شاملاً بالكامل – نتوقع نشر نتائج جديدة مع استمرار أبحاثنا وتقييمات النماذج الرائدة. ومع ذلك، نأمل أن يوفر هذا التقرير رؤى مفيدة حول إمكانيات وقيود نموذج كلاود 2.