1日前

CRISP：スパース自己符号化器を用いた恒常的コンセプトの忘却

Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

要約

大規模言語モデル（LLM）が実世界の応用にますます広く導入される中、モデルの有用性を保持しつつ、不要な知識を選択的に削除する必要性が高まっている。近年の研究では、単義的特徴（monosemantic features）に対して精密な干渉を行うためにスパース自己符号化器（SAE）が活用されている。しかし、大多数のSAEベースの手法は推論時に行われており、モデルパラメータに恒久的な変更を加えるものではない。このため、パラメータへのアクセスを持つ悪意ある攻撃者によって、これらの干渉は回避または逆転され得る。本研究では、SAEを用いた持続的な概念の忘却（unlearning）を実現するパラメータ効率の高い手法「CRISP」を提案する。CRISPは複数の層にまたがる重要なSAE特徴を自動的に同定し、それらの活性化を抑制する。我々は2種類のLLMを用いて実験を行い、WMDPベンチマークにおける安全に重要な忘却タスクにおいて、既存手法を上回ることを示した。この方法により、有害な知識を効果的に削除しつつ、一般知識およびドメイン固有の能力を維持することが可能となった。特徴レベルでの分析から、CRISPがターゲット概念と良性概念の間に意味的に整合性のある分離を達成していることが明らかとなり、ターゲット特徴の精密な抑制が実現されていることが確認された。