HyperAIHyperAI

Command Palette

Search for a command to run...

Klexikon : Un jeu de données allemand pour la synthèse et la simplification conjointes

Dennis Aumiller Michael Gertz

Résumé

Traditionnellement, la simplification de texte est traitée comme une tâche de traduction monolingue, où les phrases des textes sources et leurs versions simplifiées sont alignées pour l'entraînement. Cependant, en particulier pour les documents d'entrée longs, la synthèse du texte (ou l'élimination totale du contenu moins pertinent) joue un rôle crucial dans le processus de simplification, ce qui n'est actuellement pas reflété dans les jeux de données existants. Parallèlement, les ressources disponibles pour les langues autres que l'anglais sont généralement rares, et souvent inaccessibles pour former de nouvelles solutions. Pour relever ce défi, nous formulons les exigences fondamentales d’un système capable de synthétiser et de simplifier conjointement des documents sources longs. Nous décrivons ensuite la création d’un nouveau jeu de données pour la simplification et la synthèse conjointes du texte, basé sur Wikipedia allemande et le lexique destiné aux enfants allemands « Klexikon », comprenant près de 2 900 documents. Nous mettons à disposition une version alignée par document, mettant particulièrement en évidence l’aspect de synthèse, et fournissons des preuves statistiques montrant que cette ressource est également bien adaptée à la simplification. Le code et les données sont disponibles sur GitHub : https://github.com/dennlinger/klexikon


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp