Die erneute Betrachtung des verteilten Korrespondenzindexierens: Eine Python-Neuimplementierung und neue Experimente

Dieses Papier stellt PyDCI vor, eine neue Implementierung des Verteilungsorientierten Korrespondenzindexing (DCI) in Python. DCI ist eine Transfer-Lernmethode für die Textklassifizierung über Domänen- und Sprachgrenzen hinweg, für die wir bereits eine Implementierung bereitgestellt hatten (hier als JaDCI bezeichnet), die auf JaTeCS basiert, einem Java-Framework für Textklassifizierung. PyDCI ist eine eigenständige Version von DCI, die scikit-learn und das SciPy-Paket nutzt. In diesem Beitrag berichten wir über neue Experimente, die wir durchgeführt haben, um PyDCI zu testen. Dabei verwenden wir als Baseline neu entwickelte Methoden mit hoher Leistungsfähigkeit, die nach der ursprünglichen Vorstellung von DCI erschienen sind. Diese Experimente zeigen, dass PyDCI dank einiger subtiler Verbesserungen sowohl JaDCI als auch den oben genannten hochleistungsfähigen Methoden überlegen ist und die besten bekannten Ergebnisse auf zwei gängigen Benchmarks erzielt, an denen wir DCI getestet haben: MultiDomainSentiment (auch bekannt als MDS – für domänenübergreifende Anpassung) und Webis-CLS-10 (für sprachübergreifende Anpassung). PyDCI sowie der Code zur Reproduktion unserer Experimente sind unter https://github.com/AlexMoreo/pydci verfügbar.