Deux nouveaux jeux de données pour la résumé abstrait de texte en italien

La résumé automatique vise à produire un résumé concis contenant les éléments pertinents d’un texte donné. En raison du manque de données pour la résumé abstraite dans les langues à faible ressource telles que l’italien, nous proposons deux nouveaux jeux de données originaux, recueillis à partir de deux sites web d’actualités italiens offrant des résumés multi-phrases associés à leurs articles respectifs, ainsi qu’à partir d’un jeu de données obtenu par traduction automatique d’un jeu de données espagnol pour la résumé. Ces deux jeux de données constituent actuellement les seuls disponibles en italien pour cette tâche. Pour évaluer la qualité de ces deux jeux de données, nous les avons utilisés pour entraîner un modèle T5-base et un modèle mBART, obtenant de bons résultats avec les deux. Afin d’évaluer plus précisément les performances obtenues, nous avons également comparé ces mêmes modèles entraînés sur des jeux de données traduits automatiquement, ainsi que les résumés générés dans la même langue d’entraînement, avec des résumés traduits automatiquement, ce qui a mis en évidence l’infériorité des résultats issus des données traduites, confirmant ainsi l’avantage des modèles formés à partir des jeux de données proposés.