
摘要
在本文中,我们介绍了一个新的捷克语主观性数据集,该数据集包含从电影评论和描述中手动注释的10,000个主观句和客观句。我们的主要动机是提供一个可靠的 数据集,可以与现有的英语数据集一起使用,作为测试预训练多语言模型在捷克语和英语之间(反之亦然)知识迁移能力的基准。两名注释者对数据集进行了注释,达到了0.83的Cohen's κ(科恩的卡帕)注释者间一致性。据我们所知,这是第一个捷克语主观性数据集。我们还创建了一个额外的数据集,包含20万个自动标注的句子。这两个数据集均可免费用于研究目的。此外,我们微调了五个类似BERT的预训练模型,为新数据集设定了单语基线,并实现了93.56%的准确率。我们在现有的英语数据集上微调了这些模型,并获得了与当前最先进结果相当的结果。最后,我们进行了捷克语和英语之间的零样本跨语言主观性分类,以验证我们的数据集作为跨语言基准的可用性。我们比较并讨论了跨语言和单语结果以及多语言模型在不同语言之间迁移知识的能力。