HyperAIHyperAI
vor 17 Tagen

JamPatoisNLI: Ein natürlicher Sprachschluss-Datensatz für Jamaican Patois

Ruth-Ann Armstrong, John Hewitt, Christopher Manning
JamPatoisNLI: Ein natürlicher Sprachschluss-Datensatz für Jamaican Patois
Abstract

JamPatoisNLI stellt die erste Datensammlung für Natural Language Inference (NLI) in einer Kreolensprache, Jamaican Patois, bereit. Viele der am häufigsten gesprochenen Sprachen mit geringer Ressourcenlage sind Kreolsprachen. Diese Sprachen weisen gewöhnlich ein Vokabular auf, das von einer großen Weltsprache abgeleitet ist, und eine charakteristische Grammatik, die die Sprachen der ursprünglichen Sprecher sowie den Prozess der Sprachentstehung durch Kreolisierung widerspiegelt. Dadurch nehmen sie eine besondere Stellung ein, wenn es darum geht, die Wirksamkeit von Transferlernen von großen monolingualen oder multilingualen vortrainierten Modellen zu untersuchen. Obwohl unsere Arbeit sowie frühere Studien zeigen, dass der Transfer solcher Modelle auf Sprachen mit geringen Ressourcen, die mit den im Trainingsdatensatz enthaltenen Sprachen nicht verwandt sind, nicht sehr effektiv ist, erwarten wir für Kreolsprachen deutlich bessere Ergebnisse. Tatsächlich zeigen unsere Experimente, dass die Few-Shot-Lernleistung für JamPatoisNLI deutlich besser ist als für solche nicht verwandten Sprachen, und tragen dazu bei, zu verstehen, wie die einzigartige Beziehung zwischen Kreolsprachen und ihren hochressourcenreichen Basis-Sprachen den Transfer zwischen Sprachen beeinflusst. JamPatoisNLI, bestehend aus natürlich vorkommenden Voraussetzungen und von Experten verfassten Hypothesen, ist ein Schritt hin zu einer Forschung in einer traditionell unterversorgten Sprache und stellt eine nützliche Benchmark für das Verständnis von cross-lingualer NLP dar.