
摘要
文本简化旨在通过简化语法和结构,使文本更易于阅读和理解,同时保持其核心信息不变。传统上,该任务被视为一种通用的通用型任务,即同一套简化方法适用于所有场景;然而,不同受众群体可能以不同方式从简化文本中获益。为此,我们引入了一种离散参数化机制,为基于序列到序列(Sequence-to-Sequence)模型的简化系统提供了显式的控制能力。通过该机制,用户可根据特定属性(如文本长度、改写程度、词汇复杂度和句法复杂度)对模型生成的简化结果进行条件化调控。我们进一步证明,合理设定这些属性值,可使无需额外微调的序列到序列模型在文本简化基准测试中超越其标准版本的性能表现。我们提出的模型名为ACCESS(即“受众中心的句子简化”Audience-Centric Sentence Simplification的缩写),在WikiLarge测试集上取得了41.87的SARI得分,相较于此前最优报告结果提升了1.42,达到了当前最先进的水平。