11日前

Claudeモデル用モデルカードおよび評価

{Anthropic}
要約

本報告では、Claudeモデル(特にClaude 2)に関するモデルカード[1]を提示するとともに、安全性、整合性、機能性に関する多様な評価結果を示す。私たちは、人間からのフィードバックを用いた強化学習(RLHF)に関する初期の研究[2]以来、Claude型モデルの訓練および評価を継続的に改善してきました。最新のClaude 2モデルは、当初の「役に立ち、害をなさない」という理念に基づく、機能的に限定的だった言語アシスタントから、継続的に進化した成果物である。本報告は、科学論文を目的としているものではなく、これらのモデルの訓練および評価の多くは、既に当社の研究論文で詳細に記載されています。特に、好みモデル化に関する論文[3]、役立ちかつ害をなさないモデルに対する人間フィードバックを用いた強化学習[2]、言語モデルに対する赤チーム(red teaming)手法[4]、言語モデルにおける主観的グローバル価値の表現の測定[5]、誠実性(すなわち、モデルが自らが知っていることと知らないことを認識できるか)[6]、言語モデルが生成するテストを用いた言語モデル評価[7]、道徳的自己修正[8]、および憲法的AI(Constitutional AI)[9]に関する研究が含まれます。また、Claudeの具体的な「憲法」(constitution)については、最近のブログ投稿[10]で議論しています。人間による評価を用いたモデルの安全性テストに関する当社の研究は、「言語モデルの危害を低減するための赤チーム戦略」[4]に最も詳細に記載されており、自動化された安全性評価に関する最近の成果は、「モデル自身が作成する評価による言語モデル行動の発見」[7]にまとめられています。なお、本報告は包括的なものではありません。今後も最先端モデルに関する継続的な研究および評価を進めることで、新たな知見を発表する予定です。しかしながら、本報告がClaude 2の能力と限界について、有益な洞察を提供できることを期待しています。

Claudeモデル用モデルカードおよび評価 | 最新論文 | HyperAI超神経