HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Pré-entraînement Rencontre Clusterisation : Un Modèle Hybride d'Extraction pour la Résumé Multi-documents

{Seba Susan Akanksha Karotia}

Résumé

À une époque où une quantité massive d’informations a envahi Internet, l’extraction manuelle et la consommation de données pertinentes s’avèrent extrêmement difficiles et chronophages. Il est donc essentiel de disposer d’un outil automatisé de résumé de documents afin d’extraire les informations clés à partir d’un ensemble de documents abordant des sujets similaires ou liés. Le résumé multi-documents permet de récupérer le contenu important et pertinent provenant de plusieurs documents tout en minimisant les redondances. Dans cette étude, un système de résumé de texte multi-documents est développé en utilisant une approche non supervisée basée sur l’extraction. Le modèle proposé repose sur une fusion de deux paradigmes d’apprentissage : le modèle pré-entraîné T5 basé sur les transformateurs et l’algorithme de clustering K-Means. Des expérimentations ont été menées sur le corpus de référence d’articles d’actualité, le Document Understanding Conference (DUC2004). Les métriques d’évaluation ROUGE ont été utilisées pour mesurer les performances de l’approche proposée sur DUC2004. Les résultats confirment que le modèle proposé présente une amélioration significative par rapport aux méthodes non supervisées de pointe existantes.

Benchmarks

BenchmarkMéthodologieMétriques
extractive-text-summarization-on-duc-2004-1Pre-training-meets-Clustering-A-Hybrid-Extractive-Multi-Document-Summarization-Model
Test ROGUE-1: 34.013
Test ROGUE-2: 8.266

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Pré-entraînement Rencontre Clusterisation : Un Modèle Hybride d'Extraction pour la Résumé Multi-documents | Articles de recherche | HyperAI