HyperAIHyperAI

Command Palette

Search for a command to run...

Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen

Holger Schwenk; Xian Li

Zusammenfassung

Die cross-linguale Dokumentenklassifikation strebt an, einen Dokumentenklassifizierer mit Ressourcen in einer Sprache zu trainieren und ihn auf eine andere Sprache ohne zusätzliche Ressourcen zu übertragen. In der Literatur wurden verschiedene Ansätze vorgeschlagen, und die derzeit beste Praxis besteht darin, sie auf einem Teilkorpus des Reuters Corpus Volume 2 zu evaluieren. Allerdings umfasst dieser Teilkorpus nur wenige Sprachen (Englisch, Deutsch, Französisch und Spanisch), und fast alle veröffentlichten Arbeiten konzentrieren sich auf den Transfer zwischen Englisch und Deutsch. Zudem haben wir beobachtet, dass die Klassenpriorverteilungen zwischen den Sprachen erheblich differieren. Wir argumentieren, dass dies die Evaluierung der Mehrsprachigkeit erschwert. In diesem Artikel schlagen wir einen neuen Teilkorpus des Reuters Corpus vor, der für acht Sprachen ausgeglichene Klassenpriors bietet. Durch die Hinzufügung von Italienisch, Russisch, Japanisch und Chinesisch berücksichtigen wir Sprachen, die sich stark in Syntax, Morphologie usw. unterscheiden. Wir stellen robuste Baselines für alle Transferrichtungen bereit, indem wir multilingualisierte Worteinbettungen (word embeddings) und Satzeinbettungen (sentence embeddings) verwenden. Unser Ziel ist es, ein frei verfügbares Framework zur Evaluierung der cross-lingualen Dokumentenklassifikation anzubieten, und wir hoffen damit Forschung in diesem wichtigen Bereich zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp