HyperAIHyperAI

Command Palette

Search for a command to run...

Tschechischer Datensatz für die kreuzsprachliche Klassifikation von Subjektivität

Pavel Pribáň Josef Steinberger

Zusammenfassung

In dieser Arbeit stellen wir einen neuen tschechischen Subjektivitätsdatensatz vor, der 10.000 manuell annotierte subjektive und objektive Sätze aus Filmrezensionen und -beschreibungen umfasst. Unser Hauptanliegen ist es, einen verlässlichen Datensatz bereitzustellen, der zusammen mit dem bestehenden englischen Datensatz als Benchmark dienen kann, um die Fähigkeit vortrainierter mehrsprachiger Modelle zu testen, Wissen zwischen Tschechisch und Englisch und umgekehrt zu transferieren. Zwei Annotatoren haben den Datensatz annotiert und eine Inter-Annotator-Übereinstimmung von 0,83 nach Cohens Kappa erreicht. Nach bestem Wissen handelt es sich dabei um den ersten Subjektivitätsdatensatz für die tschechische Sprache. Wir haben außerdem einen zusätzlichen Datensatz erstellt, der 200.000 automatisch beschriftete Sätze enthält. Beide Datensätze sind für Forschungszwecke frei verfügbar. Des Weiteren feinjustieren wir fünf vortrainierte BERT-ähnliche Modelle, um eine monolinguale Baseline für den neuen Datensatz zu setzen, wobei wir eine Genauigkeit von 93,56 % erzielen. Wir feinjustieren die Modelle auf dem bestehenden englischen Datensatz, wobei wir Ergebnisse erhalten, die mit den aktuellen Stand-der-Technik-Ergebnissen vergleichbar sind. Schließlich führen wir eine zero-shot kreuzsprachliche Subjektivitätsklassifikation zwischen Tschechisch und Englisch durch, um die Nutzbarkeit unseres Datensatzes als kreuzsprachlicher Benchmark zu überprüfen. Wir vergleichen und diskutieren die kreuzsprachlichen und monolingualen Ergebnisse sowie die Fähigkeit mehrsprachiger Modelle, Wissen zwischen Sprachen zu transferieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp