HyperAIHyperAI
vor 2 Monaten

Tschechischer Datensatz für die kreuzsprachliche Klassifikation von Subjektivität

Pavel Přibáň; Josef Steinberger
Tschechischer Datensatz für die kreuzsprachliche Klassifikation von Subjektivität
Abstract

In dieser Arbeit stellen wir einen neuen tschechischen Subjektivitätsdatensatz vor, der 10.000 manuell annotierte subjektive und objektive Sätze aus Filmrezensionen und -beschreibungen umfasst. Unser Hauptanliegen ist es, einen verlässlichen Datensatz bereitzustellen, der zusammen mit dem bestehenden englischen Datensatz als Benchmark dienen kann, um die Fähigkeit vortrainierter mehrsprachiger Modelle zu testen, Wissen zwischen Tschechisch und Englisch und umgekehrt zu transferieren. Zwei Annotatoren haben den Datensatz annotiert und eine Inter-Annotator-Übereinstimmung von 0,83 nach Cohens Kappa erreicht. Nach bestem Wissen handelt es sich dabei um den ersten Subjektivitätsdatensatz für die tschechische Sprache. Wir haben außerdem einen zusätzlichen Datensatz erstellt, der 200.000 automatisch beschriftete Sätze enthält. Beide Datensätze sind für Forschungszwecke frei verfügbar. Des Weiteren feinjustieren wir fünf vortrainierte BERT-ähnliche Modelle, um eine monolinguale Baseline für den neuen Datensatz zu setzen, wobei wir eine Genauigkeit von 93,56 % erzielen. Wir feinjustieren die Modelle auf dem bestehenden englischen Datensatz, wobei wir Ergebnisse erhalten, die mit den aktuellen Stand-der-Technik-Ergebnissen vergleichbar sind. Schließlich führen wir eine zero-shot kreuzsprachliche Subjektivitätsklassifikation zwischen Tschechisch und Englisch durch, um die Nutzbarkeit unseres Datensatzes als kreuzsprachlicher Benchmark zu überprüfen. Wir vergleichen und diskutieren die kreuzsprachlichen und monolingualen Ergebnisse sowie die Fähigkeit mehrsprachiger Modelle, Wissen zwischen Sprachen zu transferieren.

Tschechischer Datensatz für die kreuzsprachliche Klassifikation von Subjektivität | Neueste Forschungsarbeiten | HyperAI