Repräsentationsingenieurwesen: Ein top-down Ansatz für Transparenz in KI

In diesem Artikel identifizieren und charakterisieren wir den sich entwickelnden Forschungsbereich der Repräsentationsingenieurwissenschaft (Representation Engineering, RepE), einen Ansatz zur Verbesserung der Transparenz von KI-Systemen, der Erkenntnisse aus der kognitiven Neurowissenschaft nutzt. RepE stellt populationsskalare Repräsentationen – anstelle einzelner Neuronen oder Schaltkreise – im Mittelpunkt der Analyse, wodurch wir über neue Methoden zur Überwachung und Manipulation hochleveliger kognitiver Phänomene in tiefen neuronalen Netzwerken (DNNs) verfügen. Wir stellen Baselines und eine erste Analyse von RepE-Techniken vor und zeigen, dass diese einfache, jedoch wirksame Lösungen für ein besseres Verständnis und eine präzisere Steuerung großer Sprachmodelle bieten. Wir demonstrieren, wie diese Methoden Ansatzpunkte für eine Vielzahl sicherheitsrelevanter Probleme liefern, darunter Ehrlichkeit, Schadensfreiheit, Machtsucht und weitere Themen, und unterstreichen damit das Potenzial von top-down-orientierter Transparenzforschung. Wir hoffen, dass diese Arbeit die weitere Erforschung von RepE anregt und Fortschritte in der Transparenz und Sicherheit von KI-Systemen fördert.