16 天前

CLUZH 在 SIGMORPHON 2022 共享任务中的词素分割与词形变化生成表现

{Peter Makarov, Simon Clematide, Silvan Wehrli}
CLUZH 在 SIGMORPHON 2022 共享任务中的词素分割与词形变化生成表现
摘要

本文介绍了苏黎世大学计算语言学系团队在SIGMORPHON 2022共享任务中关于词素分割与词形变化生成的参赛成果。我们的参赛方法采用了一种基于字符级别的神经转导器(neural transducer),其操作基于传统的编辑动作(edit actions)。尽管该模型在低资源场景下表现出色,但将其应用于大规模数据时仍面临挑战。现有实现方式难以充分利用GPU加速,且未能高效支持小批量训练(mini-batch training),这对基于转移(transition-based)的系统而言尤为困难。针对今年的参赛任务,我们已将神经转导器迁移至PyTorch框架,并实现了真正的小批量训练机制。这一改进使得模型能够有效扩展至大规模数据集,并支持广泛的实验验证。在词素分割任务中,我们取得了具有竞争力的成果(在挑战任务第二部分中并列获得第一名)。我们还证明,将句子级词素分割问题简化为词级问题,是一种简单但极为有效的策略。在词形变化生成任务中,我们也取得了优异成绩:在第一部分的大规模训练集设置下获得整体最佳结果;在第二部分的低资源学习轨迹中同样取得最优表现。所有实验代码均已公开发布,可供社区使用。

CLUZH 在 SIGMORPHON 2022 共享任务中的词素分割与词形变化生成表现 | 最新论文 | HyperAI超神经