HyperAIHyperAI
il y a 2 mois

DebateSum : Un grand ensemble de données pour l’extraction et la synthèse d’arguments

Allen Roush; Arvind Balaji
DebateSum : Un grand ensemble de données pour l’extraction et la synthèse d’arguments
Résumé

Les travaux antérieurs dans le domaine de l'Extraction d'Arguments font souvent référence à leurs applications potentielles dans les systèmes de débat automatique. Malgré cette attention, il existe presque aucun jeu de données ou modèle qui applique des techniques de traitement du langage naturel aux problèmes rencontrés dans le débat formel compétitif. Pour remédier à cette situation, nous présentons le jeu de données DebateSum. DebateSum comprend 187 386 pièces uniques d'évidence accompagnées de résumés argumentatifs et extractifs correspondants. Ce jeu de données a été créé à partir des données compilées par les participants de l'Association Nationale d'Éloquence et de Débat (National Speech and Debate Association) sur une période de 7 ans. Nous avons entraîné plusieurs modèles de résumé basés sur des transformateurs pour évaluer les performances de résumé sur DebateSum. Nous introduisons également un ensemble de vecteurs mots fastText formés sur DebateSum, appelé debate2vec. Enfin, nous présentons un moteur de recherche pour ce jeu de données, largement utilisé aujourd'hui par les membres de l'Association Nationale d'Éloquence et de Débat. Le moteur de recherche DebateSum est accessible au public ici : http://www.debate.cards