HyperAIHyperAI
vor 2 Monaten

Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen

Holger Schwenk; Xian Li
Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen
Abstract

Die cross-linguale Dokumentenklassifikation strebt an, einen Dokumentenklassifizierer mit Ressourcen in einer Sprache zu trainieren und ihn auf eine andere Sprache ohne zusätzliche Ressourcen zu übertragen. In der Literatur wurden verschiedene Ansätze vorgeschlagen, und die derzeit beste Praxis besteht darin, sie auf einem Teilkorpus des Reuters Corpus Volume 2 zu evaluieren. Allerdings umfasst dieser Teilkorpus nur wenige Sprachen (Englisch, Deutsch, Französisch und Spanisch), und fast alle veröffentlichten Arbeiten konzentrieren sich auf den Transfer zwischen Englisch und Deutsch. Zudem haben wir beobachtet, dass die Klassenpriorverteilungen zwischen den Sprachen erheblich differieren. Wir argumentieren, dass dies die Evaluierung der Mehrsprachigkeit erschwert. In diesem Artikel schlagen wir einen neuen Teilkorpus des Reuters Corpus vor, der für acht Sprachen ausgeglichene Klassenpriors bietet. Durch die Hinzufügung von Italienisch, Russisch, Japanisch und Chinesisch berücksichtigen wir Sprachen, die sich stark in Syntax, Morphologie usw. unterscheiden. Wir stellen robuste Baselines für alle Transferrichtungen bereit, indem wir multilingualisierte Worteinbettungen (word embeddings) und Satzeinbettungen (sentence embeddings) verwenden. Unser Ziel ist es, ein frei verfügbares Framework zur Evaluierung der cross-lingualen Dokumentenklassifikation anzubieten, und wir hoffen damit Forschung in diesem wichtigen Bereich zu fördern.

Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen | Neueste Forschungsarbeiten | HyperAI