Command Palette
Search for a command to run...
Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

초록
대규모 언어 모델(Large Language Models, LLMs)의 내부 활성화 상태를 간섭함으로써, 오류 발생 또는 해로운 콘텐츠 생성과 같은 부정적인 행동을 완화할 수 있는 효과적인 추론 시 정렬(alignments) 기법을 제공하며, 이는 LLM의 안전하고 신뢰할 수 있는 활용을 보장한다. 그러나 기존의 방법들은 다양한 토큰 간의 정렬 불일치( misalignment discrepancy)를 간과함으로써, 비정상적인 정렬 방향과 유연하지 않은 편집 강도를 초래한다. 이러한 문제를 해결하기 위해, 우리는 활성화 공간 내 토큰 수준의 정렬 정보를 극대화하여 우수한 후 간섭 성능을 달성할 수 있는 토큰 인지형 편집(Token-aware Editing, TAE) 방법을 제안한다. 구체적으로, 상호정보량(Mutual Information, MI)을 기반으로 한 그래프 집계(Mutual Information-guided Graph Aggregation, MIG) 모듈은 토큰 간의 정보적 상호작용을 탐구하기 위해 MI 기반 그래프를 구성함으로써 활성화의 풍부함을 증진시키고, 정렬 탐지 성능을 향상시키며 간섭을 용이하게 한다. 이후, 정렬 불일치 인지형 적응적 간섭(Misalignment-aware Adaptive Intervention, MAI) 모듈은 토큰 표현과 예측 단계에서 토큰 수준의 정렬 불일치 정도를 종합적으로 인지하여, 편집 강도를 적응적으로 조정함으로써 최종 정렬 성능을 향상시킨다. 세 가지 정렬 능력에 대한 광범위한 실험을 통해 TAE의 효과성을 입증하였으며, 진실성(Truthfulness)의 주요 지표에서 기준 모델 대비 25.8% 우수한 성능을 기록하면서도 최소한의 비용으로 이를 달성하였다.