vor 17 Tagen

Repräsentationsingenieurwesen: Ein top-down Ansatz für Transparenz in KI

Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks

Details der Forschungsarbeit anzeigen

Repräsentationsingenieurwesen: Ein top-down Ansatz für Transparenz in KI

Abstract

In diesem Artikel identifizieren und charakterisieren wir den sich entwickelnden Forschungsbereich der Repräsentationsingenieurwissenschaft (Representation Engineering, RepE), einen Ansatz zur Verbesserung der Transparenz von KI-Systemen, der Erkenntnisse aus der kognitiven Neurowissenschaft nutzt. RepE stellt populationsskalare Repräsentationen – anstelle einzelner Neuronen oder Schaltkreise – im Mittelpunkt der Analyse, wodurch wir über neue Methoden zur Überwachung und Manipulation hochleveliger kognitiver Phänomene in tiefen neuronalen Netzwerken (DNNs) verfügen. Wir stellen Baselines und eine erste Analyse von RepE-Techniken vor und zeigen, dass diese einfache, jedoch wirksame Lösungen für ein besseres Verständnis und eine präzisere Steuerung großer Sprachmodelle bieten. Wir demonstrieren, wie diese Methoden Ansatzpunkte für eine Vielzahl sicherheitsrelevanter Probleme liefern, darunter Ehrlichkeit, Schadensfreiheit, Machtsucht und weitere Themen, und unterstreichen damit das Potenzial von top-down-orientierter Transparenzforschung. Wir hoffen, dass diese Arbeit die weitere Erforschung von RepE anregt und Fortschritte in der Transparenz und Sicherheit von KI-Systemen fördert.