17日前
表現工学:AIの透明性を実現するトップダウンアプローチ
Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks

要約
本稿では、認知神経科学の知見を活用してAIシステムの透明性を向上させるアプローチとして、新たな分野である表現工学(Representation Engineering, RepE)を同定し、その特徴を明らかにする。RepEは、個々のニューロンや回路ではなく、集団レベルの表現(population-level representations)を分析の中心に据える。これにより、深層ニューラルネットワーク(DNN)における高次認知現象の監視および操作に向けた新たな手法が可能となる。本研究ではRepE手法に対するベースラインと初期分析を提示し、大規模言語モデルの理解と制御を改善する上で、簡潔でありながら効果的な解決策を提供することを示した。さらに、誠実性、無害性、権力志向性など、安全に関連する多様な課題に対して、これらの手法が有効なアプローチを提供できることを示し、上位から下位へと透明性を追求する研究の可能性を実証した。本研究がRepEのさらなる探求を促進し、AIシステムの透明性および安全性の進展に寄与することを期待する。