HyperAIHyperAI

Command Palette

Search for a command to run...

Jeu de données tchèque pour la classification subjectivité interlinguistique

Pavel Pribáň Josef Steinberger

Résumé

Dans cet article, nous présentons un nouveau jeu de données tchèque de subjectivité composé de 10 000 phrases subjectives et objectives manuellement annotées provenant de critiques et de descriptions de films. Notre motivation principale est de fournir un jeu de données fiable qui peut être utilisé en conjonction avec les jeux de données anglais existants comme référence pour évaluer la capacité des modèles multilingues pré-entraînés à transférer des connaissances entre le tchèque et l'anglais, et vice versa. Deux annotateurs ont étiqueté le jeu de données, atteignant un accord inter-annotateur de Cohen's \k{appa} de 0,83. À notre connaissance, il s'agit du premier jeu de données de subjectivité pour la langue tchèque. Nous avons également créé un jeu de données supplémentaire composé de 200 000 phrases étiquetées automatiquement. Les deux jeux de données sont librement disponibles à des fins de recherche. De plus, nous avons affiné cinq modèles pré-entraînés similaires à BERT pour établir une ligne de base monolingue pour le nouveau jeu de données, obtenant une précision de 93,56 %. Nous avons également affiné les modèles sur le jeu de données anglais existant, pour lequel nous avons obtenu des résultats comparables aux résultats actuels les plus avancés (state-of-the-art). Enfin, nous avons effectué une classification zéro-shot croisée entre tchèque et anglais pour vérifier l'utilisabilité de notre jeu de données comme référence croisée linguistique. Nous comparons et discutons des résultats croisés linguistiques et monolingues ainsi que la capacité des modèles multilingues à transférer des connaissances entre les langues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Jeu de données tchèque pour la classification subjectivité interlinguistique | Articles | HyperAI