2달 전

분포 대응 인덱싱 재검토: 파이썬 재구현 및 새로운 실험

Alejandro Moreo; Andrea Esuli; Fabrizio Sebastiani
분포 대응 인덱싱 재검토: 파이썬 재구현 및 새로운 실험
초록

본 논문은 Python으로 작성된 새로운 Distributional Correspondence Indexing (DCI) 구현체인 PyDCI를 소개합니다. DCI는 크로스 도메인 및 크로스 언어 텍스트 분류를 위한 전이 학습 방법으로, 이전에 JaTeCS(Java 텍스트 분류 프레임워크) 기반으로 구현한 버전(JaDCI라고 함)을 제공한 바 있습니다. PyDCI는 scikit-learn과 SciPy 스택을 활용하는 독립적인 DCI 구현체입니다. 우리는 PyDCI를 테스트하기 위해 수행한 새로운 실험 결과를 보고하며, 이 실험에서는 DCI가 처음 제안된 이후 등장한 새로운 고성능 방법들을 베이스라인으로 사용했습니다. 이러한 실험 결과는 DCI의 몇 가지 미묘한 개선 덕분에 PyDCI가 JaDCI와 위에서 언급한 고성능 방법들보다 우수하며, 두 가지 유명한 벤치마크(MultiDomainSentiment, 즉 MDS – 크로스 도메인 적응을 위한 벤치마크와 Webis-CLS-10 – 크로스 언어 적응을 위한 벤치마크)에서 최고의 알려진 성능을 보여주었습니다. PyDCI와 우리의 실험을 재현할 수 있는 코드는 https://github.com/AlexMoreo/pydci 에서 이용 가능합니다.