2ヶ月前

分布対応インデクシングの再検討:Pythonによる再実装と新しい実験

Alejandro Moreo; Andrea Esuli; Fabrizio Sebastiani
分布対応インデクシングの再検討:Pythonによる再実装と新しい実験
要約

本論文では、Pythonで書かれた新しいDistributional Correspondence Indexing(DCI)の実装であるPyDCIを紹介します。DCIは、クロスドメインおよびクロスリンガルのテキスト分類に用いられる転移学習手法であり、当初はJaTeCSというJavaのテキスト分類フレームワーク上で構築された実装(ここではJaDCIと呼ぶ)が提供されていました。PyDCIは、scikit-learnとSciPyスタックを利用したDCIの独立版です。ここでは、PyDCIをテストするために新たに実施した実験について報告し、基準としてDCIが提案された後に登場した新しい高性能な手法を使用しています。これらの実験結果は、いくつかの微妙な改良によりPyDCIがJaDCIや上記の高性能な手法を上回り、MultiDomainSentiment(別名MDS -- クロスドメイン適応用)とWebis-CLS-10(クロスリンガル適応用)という2つの人気ベンチマークにおいてこれまで知られている最高の結果を達成していることを示しています。PyDCIおよび当該実験を再現するためのコードは、https://github.com/AlexMoreo/pydci から利用可能です。