摘要
本报告包含Claude系列模型的模型卡片[1],重点聚焦于Claude 2,并汇总了多项关于安全性、对齐性及能力表现的评估结果。自我们首次开展基于人类反馈的强化学习(RLHF)研究[2]以来,我们持续迭代并优化Claude类模型的训练与评估流程。最新推出的Claude 2模型,是早期“有益且无害”语言助手的持续演进成果,代表了在能力与可靠性方面的显著提升。本报告并非科学论文,因为模型训练与评估的大多数技术细节已在我们的研究论文中详细记录。相关研究涵盖偏好建模[3]、面向有益且无害模型的人类反馈强化学习[2]、对抗性测试语言模型[4]、衡量语言模型中主观全球价值观的表征[5]、诚实性(即探索语言模型识别自身知识边界的能力)[6]、利用语言模型生成测试来评估语言模型[7]、道德自我修正[8]以及宪法型人工智能(Constitutional AI)[9]。此外,我们近期在博客文章中也专门讨论了Claude模型所遵循的特定“宪法”框架[10]。我们通过人工评估测试模型安全性的方法,主要在论文《通过红队测试降低语言模型危害》[4]中得到详尽阐述;而近期在自动化安全评估方面的研究,则体现在《通过模型自编评估发现语言模型行为》[7]一文中。需要说明的是,本报告并非全面性总结——随着我们对前沿模型的持续研究与评估,未来还将发布更多新发现。但即便如此,我们仍希望本报告能为理解Claude 2的能力边界与潜在局限提供有价值的参考。