25일 전

토큰 인식형 내부 활성화 편집을 통한 대규모 언어 모델의 일치성 조정

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

초록

대규모 언어 모델(Large Language Models, LLMs)의 내부 활성화 상태를 간섭함으로써, 오류 발생 또는 해로운 콘텐츠 생성과 같은 부정적인 행동을 완화할 수 있는 효과적인 추론 시 정렬(alignments) 기법을 제공하며, 이는 LLM의 안전하고 신뢰할 수 있는 활용을 보장한다. 그러나 기존의 방법들은 다양한 토큰 간의 정렬 불일치( misalignment discrepancy)를 간과함으로써, 비정상적인 정렬 방향과 유연하지 않은 편집 강도를 초래한다. 이러한 문제를 해결하기 위해, 우리는 활성화 공간 내 토큰 수준의 정렬 정보를 극대화하여 우수한 후 간섭 성능을 달성할 수 있는 토큰 인지형 편집(Token-aware Editing, TAE) 방법을 제안한다. 구체적으로, 상호정보량(Mutual Information, MI)을 기반으로 한 그래프 집계(Mutual Information-guided Graph Aggregation, MIG) 모듈은 토큰 간의 정보적 상호작용을 탐구하기 위해 MI 기반 그래프를 구성함으로써 활성화의 풍부함을 증진시키고, 정렬 탐지 성능을 향상시키며 간섭을 용이하게 한다. 이후, 정렬 불일치 인지형 적응적 간섭(Misalignment-aware Adaptive Intervention, MAI) 모듈은 토큰 표현과 예측 단계에서 토큰 수준의 정렬 불일치 정도를 종합적으로 인지하여, 편집 강도를 적응적으로 조정함으로써 최종 정렬 성능을 향상시킨다. 세 가지 정렬 능력에 대한 광범위한 실험을 통해 TAE의 효과성을 입증하였으며, 진실성(Truthfulness)의 주요 지표에서 기준 모델 대비 25.8% 우수한 성능을 기록하면서도 최소한의 비용으로 이를 달성하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

토큰 인식형 내부 활성화 편집을 통한 대규모 언어 모델의 일치성 조정

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

초록

AI로 AI 구축

Hyper Newsletters