HyperAIHyperAI
il y a 11 jours

Fiche modèle et évaluations pour les modèles Claude

{Anthropic}
Résumé

Ce rapport inclut la fiche modèle [1] dédiée aux modèles Claude, avec un focus particulier sur Claude 2, ainsi que les résultats d’une série d’évaluations portant sur la sécurité, l’alignement et les capacités. Nous itérons continuellement sur l’entraînement et l’évaluation des modèles du type Claude depuis nos premiers travaux sur l’apprentissage par renforcement à partir de feedback humain (RLHF) [2] ; le dernier modèle, Claude 2, représente une évolution continue par rapport aux premiers assistants linguistiques « utiles et inoffensifs », qui étaient moins performants.Ce rapport n’a pas vocation à être une publication scientifique, car la plupart des aspects liés à l’entraînement et à l’évaluation de ces modèles ont déjà été documentés dans nos articles de recherche. Ces publications portent notamment sur la modélisation des préférences [3], l’apprentissage par renforcement à partir de feedback humain pour des modèles utiles et inoffensifs [2], le « red teaming » des modèles linguistiques [4], la mesure de la représentation de valeurs globales subjectives dans les modèles linguistiques [5], l’honnêteté (c’est-à-dire l’exploration de la capacité des modèles à reconnaître ce qu’ils savent) [6], l’évaluation des modèles linguistiques à l’aide de tests générés par des modèles linguistiques [7], la correction morale auto-référentielle [8] et l’IA constitutionnelle [9]. Nous avons également abordé spécifiquement la constitution de Claude dans un récent billet de blog [10]. Nos travaux utilisant des évaluations humaines pour tester la sécurité des modèles sont le plus complètement documentés dans notre article « Red-Teaming Language Models to Reduce Harms » [4], tandis que notre recherche récente sur l’évaluation automatisée de la sécurité est présentée dans « Discovering Language Model Behaviors with Model-Written Evaluations » [7].Ce rapport n’est pas exhaustif – nous prévoyons de publier de nouveaux résultats au fur et à mesure de la poursuite de nos recherches et évaluations sur les modèles de pointe. Toutefois, nous espérons qu’il offre des éléments d’insight utiles sur les capacités et les limites de Claude 2.

Fiche modèle et évaluations pour les modèles Claude | Articles de recherche récents | HyperAI