17 天前

表征工程:一种面向人工智能透明性的自上而下方法

Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks
表征工程:一种面向人工智能透明性的自上而下方法
摘要

在本文中,我们识别并系统刻画了表示工程(Representation Engineering, RepE)这一新兴研究领域。RepE是一种旨在提升人工智能系统透明性的方法,其思想源于认知神经科学的洞见。与传统关注单个神经元或神经回路的研究范式不同,RepE将群体层面的表示(population-level representations)置于分析的核心位置,从而为我们提供了全新的方法,用于监测与调控深度神经网络(DNNs)中的高层认知现象。本文建立了RepE技术的基准体系,并进行了初步分析,结果表明,这些方法能够以简洁而有效的方式,显著增强我们对大型语言模型的理解与控制能力。我们展示了这些方法在应对一系列与安全密切相关的挑战中的实际应用潜力,包括模型的诚实性、无害性、权力追求倾向等,充分彰显了自上而下透明性研究的前景。我们期望本工作能够推动RepE领域的进一步探索,并促进人工智能系统在透明性与安全性方面的持续进步。

表征工程:一种面向人工智能透明性的自上而下方法 | 最新论文 | HyperAI超神经