Model Card und Bewertungen für Claude-Modelle
Dieser Bericht enthält die Model Card [1] für die Claude-Modelle mit Fokus auf Claude 2 sowie die Ergebnisse einer Reihe von Sicherheits-, Ausrichtungs- und Leistungsbewertungen. Seit unserer ersten Arbeit zu Reinforcement Learning aus menschlichem Feedback (RLHF) [2] haben wir kontinuierlich an der Weiterentwicklung und Bewertung von Claude-artigen Modellen gearbeitet; das neueste Claude 2-Modell stellt eine kontinuierliche Evolution jener frühen, weniger leistungsfähigen „hilfreichen und harmlosen“ Sprachassistenten dar.Dieser Bericht soll kein wissenschaftlicher Artikel sein, da die meisten Aspekte der Modelltrainings- und Bewertungsprozesse bereits in unseren Forschungspapieren dokumentiert wurden. Dazu gehören Arbeiten zu Präferenzmodellierung [3], Reinforcement Learning aus menschlichem Feedback für hilfreiche und harmlose Modelle [2], Red-Teaming von Sprachmodellen [4], Messung der Repräsentation subjektiver globaler Werte in Sprachmodellen [5], Ehrlichkeit (d. h. die Fähigkeit von Sprachmodellen, zu erkennen, was sie wissen) [6], die Bewertung von Sprachmodellen mittels tests, die von Sprachmodellen selbst generiert werden [7], moralische Selbstkorrektur [8] sowie Constitutional AI [9]. In einem kürzlich veröffentlichten Blogbeitrag [10] haben wir zudem die spezifische Konstitution von Claude ausführlich diskutiert. Unsere Arbeit zur Sicherheitsbewertung von Modellen mittels menschlicher Evaluationen ist am umfassendsten in unserem Paper „Red-Teaming Language Models to Reduce Harms“ [4] dokumentiert, während unsere jüngsten Arbeiten zur automatisierten Sicherheitsbewertung in „Discovering Language Model Behaviors with Model-Written Evaluations“ [7] beschrieben sind.Darüber hinaus ist dieser Bericht nicht erschöpfend – wir erwarten, weitere Erkenntnisse zu veröffentlichen, während wir unsere Forschung und Bewertung von Spitzenmodellen fortsetzen. Dennoch hoffen wir, dass er nützliche Einblicke in die Fähigkeiten und Grenzen von Claude 2 bietet.