Command Palette
Search for a command to run...
Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

要約
大規模言語モデル(LLM)の内部活性化に介入することで、誤ったまたは有害なコンテンツの生成といった望ましくない行動を軽減する効果的な推論時整合手法が得られる。これにより、LLMの安全かつ信頼性の高い応用が可能となる。しかし、従来の手法は異なるトークン間における整合性の不一致(misalignment discrepancy)を無視しており、結果として整合方向の逸脱や編集強度の不柔軟性が生じる。こうした課題に対処するため、本研究ではアクティベーション空間におけるトークンレベルの整合情報の効果的な活用を可能にする「トークン認識型編集(Token-aware Editing, TAE)」手法を提案する。具体的には、まず相互情報量(Mutual Information, MI)を用いたグラフ集約(Mutual Information-guided Graph Aggregation, MIG)モジュールが、トークン間の情報的相互作用を活用するMI誘導型グラフを構築し、アクティベーションの豊かさを向上させることで、整合性の探査精度を高め、介入の実現を促進する。次に、不整合認識型適応的介入(Misalignment-aware Adaptive Intervention, MAI)モジュールが、トークン表現と予測の両側面からトークンレベルの不整合度を包括的に把握し、編集強度の適応的調整を実現することで、最終的な整合性能を向上させる。3つの整合性能力に関する広範な実験により、TAEの有効性が実証された。特に、真実性(truthfulness)という主要評価指標において、ベースラインを25.8%上回りながらも、最小限の計算コストで優れた性能を達成した。