
要約
大規模言語モデル(LLM)は、しばしば幻覚的な出力を生成する問題に直面しており、特に正解の知識を有しているにもかかわらず不正確な応答を生成することがあります。LLM内の真実性を活性化することは、LLMの知識ポテンシャルを完全に解放する鍵となります。本論文では、TruthXという推論時の介入手法を提案します。この手法は、LLMの内部表現において真実性を支配する特徴を識別し、編集することでLLMの真実性を活性化します。TruthXはオートエンコーダーを使用して、LLMの表現をそれぞれ意味的空間と真実的空間にマッピングし、対照学習を利用して真実的空間内で真実的な編集方向を識別します。推論時には、TrueXがLLMの内部表現を真実的空間内で編集することで、効果的にLLMの真実性が向上します。実験結果によると、TruthXは13種類の最先端のLLMに対して平均20%の改善率でTruthfulQAベンチマークにおける真実性を向上させました。さらに分析した結果、TruthXはLLMの内部表現内の単一ベクトルのみを編集することで、真実的な応答または幻覚的な応答を制御できることが示唆されました。