
摘要
我们提出了一种名为MoNoise的规范化模型,该模型专注于通用性和效率,旨在易于重用和适应。规范化是指将非标准领域的文本转换为更加标准领域的文本,在我们的案例中,即将社交媒体数据转换为标准语言。我们提出的模型基于模块化的候选生成方法,其中每个模块负责不同类型的规范化操作。最重要的生成模块包括拼写校正系统和词嵌入模块。根据规范化任务的定义,静态查找表对于性能至关重要。我们训练了一个随机森林分类器来对候选结果进行排序,该分类器能够很好地泛化到所有不同类型的规范化操作。用于排序的大多数特征来源于生成模块;除了这些特征之外,N-gram特征也被证明是一个重要的信息来源。我们展示了MoNoise在英语和荷兰语的不同规范化基准测试中超越了现有最先进水平,尽管这些基准测试对规范化的任务定义略有不同。