HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Fiche modèle et évaluations pour les modèles Claude

{Anthropic}

Résumé

Ce rapport inclut la fiche modèle [1] dédiée aux modèles Claude, avec un focus particulier sur Claude 2, ainsi que les résultats d’une série d’évaluations portant sur la sécurité, l’alignement et les capacités. Nous itérons continuellement sur l’entraînement et l’évaluation des modèles du type Claude depuis nos premiers travaux sur l’apprentissage par renforcement à partir de feedback humain (RLHF) [2] ; le dernier modèle, Claude 2, représente une évolution continue par rapport aux premiers assistants linguistiques « utiles et inoffensifs », qui étaient moins performants.Ce rapport n’a pas vocation à être une publication scientifique, car la plupart des aspects liés à l’entraînement et à l’évaluation de ces modèles ont déjà été documentés dans nos articles de recherche. Ces publications portent notamment sur la modélisation des préférences [3], l’apprentissage par renforcement à partir de feedback humain pour des modèles utiles et inoffensifs [2], le « red teaming » des modèles linguistiques [4], la mesure de la représentation de valeurs globales subjectives dans les modèles linguistiques [5], l’honnêteté (c’est-à-dire l’exploration de la capacité des modèles à reconnaître ce qu’ils savent) [6], l’évaluation des modèles linguistiques à l’aide de tests générés par des modèles linguistiques [7], la correction morale auto-référentielle [8] et l’IA constitutionnelle [9]. Nous avons également abordé spécifiquement la constitution de Claude dans un récent billet de blog [10]. Nos travaux utilisant des évaluations humaines pour tester la sécurité des modèles sont le plus complètement documentés dans notre article « Red-Teaming Language Models to Reduce Harms » [4], tandis que notre recherche récente sur l’évaluation automatisée de la sécurité est présentée dans « Discovering Language Model Behaviors with Model-Written Evaluations » [7].Ce rapport n’est pas exhaustif – nous prévoyons de publier de nouveaux résultats au fur et à mesure de la poursuite de nos recherches et évaluations sur les modèles de pointe. Toutefois, nous espérons qu’il offre des éléments d’insight utiles sur les capacités et les limites de Claude 2.

Benchmarks

BenchmarkMéthodologieMétriques
arithmetic-reasoning-on-gsm8kClaude 1.3 (0-shot chain-of-thought)
Accuracy: 85.2
arithmetic-reasoning-on-gsm8kClaude 2 (0-shot chain-of-thought)
Accuracy: 88
arithmetic-reasoning-on-gsm8kClaude Instant 1.1 (0-shot chain-of-thought)
Accuracy: 80.9
common-sense-reasoning-on-arc-challengeClaude 2 (few-shot, k=5)
Accuracy: 91
common-sense-reasoning-on-arc-challengeClaude Instant 1.1 (few-shot, k=5)
Accuracy: 85.7
common-sense-reasoning-on-arc-challengeClaude 1.3 (few-shot, k=5)
Accuracy: 90
multi-task-language-understanding-on-mmluClaude Instant 1.1 (5-shot)
Average (%): 73.4
question-answering-on-qualityClaude Instant 1.1 (5-shot)
Accuracy: 80.5
question-answering-on-qualityClaude 1.3 (5-shot)
Accuracy: 84.1
question-answering-on-qualityClaude 2 (5-shot)
Accuracy: 83.2
question-answering-on-triviaqaClaude 2 (few-shot, k=5)
EM: 87.5
question-answering-on-triviaqaClaude Instant 1.1 (few-shot, k=5)
EM: 78.9
question-answering-on-triviaqaClaude 1.3 (few-shot, k=5)
EM: 86.7

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Fiche modèle et évaluations pour les modèles Claude | Articles de recherche | HyperAI