HyperAIHyperAI
il y a 2 mois

TLDR9+ : Une grande ressource pour la synthèse extrême des publications sur les réseaux sociaux

Sajad Sotudeh; Hanieh Deilamsalehy; Franck Dernoncourt; Nazli Goharian
TLDR9+ : Une grande ressource pour la synthèse extrême des publications sur les réseaux sociaux
Résumé

Les modèles récents dans le développement de systèmes de résumé sont composés de millions de paramètres et leurs performances dépendent fortement de l'abondance des données d'entraînement. Bien que la plupart des corpus existants contiennent des données allant de quelques milliers à un million, la génération de jeux de données de résumé à grande échelle, comprenant plusieurs millions d'instances, reste encore à explorer. Pratiquement, plus il y a de données, mieux cela généralise les modèles d'entraînement aux données inconnues. Dans cet article, nous présentons TLDR9+ – un jeu de données de résumé à grande échelle – contenant plus de 9 millions d'instances d'entraînement extraites du forum de discussion Reddit (https://github.com/sajastu/reddit_collector). Ce jeu de données est spécifiquement collecté pour effectuer des résumés extrêmes (c'est-à-dire générer un résumé en une seule phrase avec une forte compression et une abstraction élevée) et est plus du double de la taille du jeu de données précédemment proposé. Nous allons plus loin en utilisant des annotations humaines pour extraire des instances Haute-Qualité (High-Quality) de TLDR9+, formant ainsi un jeu de données plus finement granulaire que nous appelons TLDRHQ. Nous évaluons également différents modèles avancés d'état de l'art sur nos jeux de données proposés.

TLDR9+ : Une grande ressource pour la synthèse extrême des publications sur les réseaux sociaux | Articles de recherche récents | HyperAI