语言模型依赖语法捷径牺牲推理能力 可靠性面临严峻挑战
大型语言模型(LLMs)在回答问题时可能依赖语法模式而非真正理解语义,这一现象可能带来严重可靠性与安全风险。根据麻省理工学院(MIT)一项新研究,即使是最先进的模型,也可能因过度依赖训练数据中形成的“语法捷径”而错误作答。 研究发现,LLMs在训练过程中会学习到特定的句法结构(即“语法模板”),并将其与特定主题领域关联。例如,模型可能将“巴黎位于哪里?”这类问题的句式结构与“国家”主题绑定,从而在遇到语法相似但语义荒谬的问题(如“快速坐在巴黎被遮蔽?”)时,仍机械地回答“法国”。这种行为并非基于真实知识,而是对语法模式的错误依赖。 研究人员通过合成实验验证了这一现象:在训练数据中仅保留单一语法模板的情况下,模型仍能正确回答问题,即使问题本身毫无意义;而一旦更换句法结构,即使语义不变,模型也常无法给出正确答案。该现象在GPT-4、Llama等主流模型中均被观察到。 更令人担忧的是,攻击者可能利用这一漏洞诱导模型生成有害内容。研究显示,通过使用模型曾用于“安全数据集”的语法模板,可绕过其拒绝有害请求的防护机制,使其输出本应被阻止的内容。 研究团队由此提出一种自动化的基准测试方法,用于评估模型对语法-领域错误关联的依赖程度,帮助开发者在部署前识别并缓解此类风险。未来,他们计划探索通过丰富训练数据中的句法多样性来增强模型鲁棒性,并研究该现象在复杂推理模型中的表现。 专家指出,这项研究揭示了语言学知识在大模型安全研究中的关键作用,强调应将句法分析纳入模型安全设计的核心考量。
