2 个月前

重新审视分布对应索引:Python 重新实现及新实验

Alejandro Moreo; Andrea Esuli; Fabrizio Sebastiani
重新审视分布对应索引:Python 重新实现及新实验
摘要

本文介绍了PyDCI,这是一种用Python编写的新的分布对应索引(Distributional Correspondence Indexing, DCI)实现方法。DCI是一种用于跨域和跨语言文本分类的迁移学习方法,我们之前基于Java文本分类框架JaTeCS提供了一种实现(以下简称JaDCI)。PyDCI是DCI的一个独立版本,利用了scikit-learn和SciPy堆栈。本文报告了我们为测试PyDCI而进行的新实验,并在这些实验中使用了自DCI最初提出以来出现的一些新的高性能方法作为基线。实验结果表明,由于我们在几个细微方面对DCI进行了改进,PyDCI不仅优于JaDCI,还超过了上述高性能方法,在两个流行的基准测试中取得了最佳已知结果,即多域情感分析(MultiDomainSentiment,简称MDS——用于跨域适应)和Webis-CLS-10(用于跨语言适应)。PyDCI及其允许复现实验的代码可在https://github.com/AlexMoreo/pydci 获取。