17일 전
표현 공학: 인공지능 투명성을 위한 상향식 접근법
Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks

초록
이 논문에서는 인지신경과학의 통찰을 활용하여 인공지능 시스템의 투명성을 향상시키는 접근법으로서의 표현 공학(Representation Engineering, RepE)이라는 새로운 영역을 식별하고 특성화한다. RepE는 개별 뉴런이나 회로가 아니라 인구 수준의 표현(population-level representations)을 분석의 중심에 두며, 심층 신경망(DNN) 내 고차원 인지 현상의 모니터링과 조작을 위한 새로운 방법론을 제공한다. 본 연구에서는 RepE 기법에 대한 기준선과 초기 분석을 제시하며, 대규모 언어 모델에 대한 이해와 통제를 향상시키는 데 간단하면서도 효과적인 해결책을 제공함을 보여준다. 또한 이러한 방법론이 정직성, 해로움 회피, 권력 탐구와 같은 다양한 안전 관련 문제 해결에 실질적인 접근 가능성을 제공함을 입증함으로써 상향식 투명성 연구의 잠재력을 입증한다. 본 연구가 RepE에 대한 추가적 탐구를 촉진하고, 인공지능 시스템의 투명성과 안전성 향상에 기여하기를 기대한다.