Jeu de données tchèque pour la classification subjectivité interlinguistique

Dans cet article, nous présentons un nouveau jeu de données tchèque de subjectivité composé de 10 000 phrases subjectives et objectives manuellement annotées provenant de critiques et de descriptions de films. Notre motivation principale est de fournir un jeu de données fiable qui peut être utilisé en conjonction avec les jeux de données anglais existants comme référence pour évaluer la capacité des modèles multilingues pré-entraînés à transférer des connaissances entre le tchèque et l'anglais, et vice versa. Deux annotateurs ont étiqueté le jeu de données, atteignant un accord inter-annotateur de Cohen's \k{appa} de 0,83. À notre connaissance, il s'agit du premier jeu de données de subjectivité pour la langue tchèque. Nous avons également créé un jeu de données supplémentaire composé de 200 000 phrases étiquetées automatiquement. Les deux jeux de données sont librement disponibles à des fins de recherche. De plus, nous avons affiné cinq modèles pré-entraînés similaires à BERT pour établir une ligne de base monolingue pour le nouveau jeu de données, obtenant une précision de 93,56 %. Nous avons également affiné les modèles sur le jeu de données anglais existant, pour lequel nous avons obtenu des résultats comparables aux résultats actuels les plus avancés (state-of-the-art). Enfin, nous avons effectué une classification zéro-shot croisée entre tchèque et anglais pour vérifier l'utilisabilité de notre jeu de données comme référence croisée linguistique. Nous comparons et discutons des résultats croisés linguistiques et monolingues ainsi que la capacité des modèles multilingues à transférer des connaissances entre les langues.