XCOPA: Ein mehrsprachiger Datensatz für kausales Alltagswissen-Reasoning

Um die menschliche Sprachfähigkeit zu simulieren, müssen Systeme des Natural Language Processing in der Lage sein, über die Dynamik alltäglicher Situationen zu reflektieren, einschließlich ihrer möglichen Ursachen und Wirkungen. Zudem sollten sie in der Lage sein, das erworbenen Weltwissen auf neue Sprachen zu verallgemeinern, unter Berücksichtigung kultureller Unterschiede. Fortschritte im maschinellen Schließen und im mehrsprachigen Transfer hängen entscheidend von der Verfügbarkeit anspruchsvoller Evaluierungsbenchmarks ab. Angesichts dieser beiden Anforderungen stellen wir XCOPA (Cross-lingual Choice of Plausible Alternatives) vor, eine typologisch vielfältige multilinguale Datensammlung für kausales Commonsense-Reasoning in 11 Sprachen, darunter ressourcenarme Sprachen wie Eastern Apurímac Quechua und Haitian Creole. Wir evaluieren eine Reihe modernster Modelle auf diesem neuen Datensatz und zeigen, dass die Leistung aktueller Ansätze, die auf mehrsprachiger Vortrainierung und Zero-Shot-Finetuning basieren, hinter der von Übersetzungs-basiertem Transfer zurückbleibt. Schließlich schlagen wir Strategien vor, um mehrsprachige Modelle an ressourcenarme Sprachen außerhalb der Trainingsmenge anzupassen, bei denen lediglich ein kleiner Korpus oder ein zweisprachiges Wörterbuch verfügbar ist, und berichten über erhebliche Verbesserungen gegenüber dem Zufallsbasismodell. Der XCOPA-Datensatz ist frei verfügbar unter github.com/cambridgeltl/xcopa.