HyperAIHyperAI

Command Palette

Search for a command to run...

TLDR9+ : Une grande ressource pour la synthèse extrême des publications sur les réseaux sociaux

Sajad Sotudeh; Hanieh Deilamsalehy; Franck Dernoncourt; Nazli Goharian

Résumé

Les modèles récents dans le développement de systèmes de résumé sont composés de millions de paramètres et leurs performances dépendent fortement de l'abondance des données d'entraînement. Bien que la plupart des corpus existants contiennent des données allant de quelques milliers à un million, la génération de jeux de données de résumé à grande échelle, comprenant plusieurs millions d'instances, reste encore à explorer. Pratiquement, plus il y a de données, mieux cela généralise les modèles d'entraînement aux données inconnues. Dans cet article, nous présentons TLDR9+ – un jeu de données de résumé à grande échelle – contenant plus de 9 millions d'instances d'entraînement extraites du forum de discussion Reddit (https://github.com/sajastu/reddit_collector). Ce jeu de données est spécifiquement collecté pour effectuer des résumés extrêmes (c'est-à-dire générer un résumé en une seule phrase avec une forte compression et une abstraction élevée) et est plus du double de la taille du jeu de données précédemment proposé. Nous allons plus loin en utilisant des annotations humaines pour extraire des instances Haute-Qualité (High-Quality) de TLDR9+, formant ainsi un jeu de données plus finement granulaire que nous appelons TLDRHQ. Nous évaluons également différents modèles avancés d'état de l'art sur nos jeux de données proposés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TLDR9+ : Une grande ressource pour la synthèse extrême des publications sur les réseaux sociaux | Articles | HyperAI