vor 8 Monaten

Zusammenfassung

Die cross-linguale Dokumentenklassifikation strebt an, einen Dokumentenklassifizierer mit Ressourcen in einer Sprache zu trainieren und ihn auf eine andere Sprache ohne zusätzliche Ressourcen zu übertragen. In der Literatur wurden verschiedene Ansätze vorgeschlagen, und die derzeit beste Praxis besteht darin, sie auf einem Teilkorpus des Reuters Corpus Volume 2 zu evaluieren. Allerdings umfasst dieser Teilkorpus nur wenige Sprachen (Englisch, Deutsch, Französisch und Spanisch), und fast alle veröffentlichten Arbeiten konzentrieren sich auf den Transfer zwischen Englisch und Deutsch. Zudem haben wir beobachtet, dass die Klassenpriorverteilungen zwischen den Sprachen erheblich differieren. Wir argumentieren, dass dies die Evaluierung der Mehrsprachigkeit erschwert. In diesem Artikel schlagen wir einen neuen Teilkorpus des Reuters Corpus vor, der für acht Sprachen ausgeglichene Klassenpriors bietet. Durch die Hinzufügung von Italienisch, Russisch, Japanisch und Chinesisch berücksichtigen wir Sprachen, die sich stark in Syntax, Morphologie usw. unterscheiden. Wir stellen robuste Baselines für alle Transferrichtungen bereit, indem wir multilingualisierte Worteinbettungen (word embeddings) und Satzeinbettungen (sentence embeddings) verwenden. Unser Ziel ist es, ein frei verfügbares Framework zur Evaluierung der cross-lingualen Dokumentenklassifikation anzubieten, und wir hoffen damit Forschung in diesem wichtigen Bereich zu fördern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Natürliche Sprachverarbeitung

Datensatz

Dokumentenverstehen

KI-Infrastruktur

Natürliche Sprachverarbeitung

Aufgabe

Holger Schwenk; Xian Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Natürliche Sprachverarbeitung

Datensatz

Dokumentenverstehen

KI-Infrastruktur

Natürliche Sprachverarbeitung

Aufgabe

Holger Schwenk; Xian Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen | Paper | HyperAI

Command Palette

Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen

Holger Schwenk; Xian Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen

Holger Schwenk; Xian Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein Korpus für die multilingualen Dokumentenklassifizierung in acht Sprachen

Holger Schwenk; Xian Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters