الملخص النصي
تجميع النص هو مهمة في معالجة اللغة الطبيعية تهدف إلى ضغط الوثائق الطويلة إلى إصدارات أقصر وأكثر دقة مع الحفاظ على المعلومات الأساسية والمعنى الأصلي للنص. الهدف منه هو إنتاج ملخصات تعكس بدقة محتوى النص الأصلي، مما يمكّن المستخدمين من فهم المعلومات الرئيسية بسرعة. تشمل هذه المهمة كلًا من الطرق الاستخراجية والتجريدية؛ الأولى تحدد وتستخرج الجمل أو العبارات الهامة، بينما الثانية تولّد نصًا جديدًا بناءً على محتوى الوثيقة الأصلية. له تطبيقات قيمة كبيرة في مجالات مثل التقارير الإخبارية والأدب العلمي والتقارير التجارية.
GigaWord
BART-RXF
Pubmed
Arxiv HEP-TH citation graph
MTEB
X-Sum
Selfmem
CNN / Daily Mail (Anonymized)
DUC 2004 Task 1
Transformer+WDrop
SAMSum
Reddit TIFU
DialogSum
InstructDS
arXiv Summarization Dataset
PRIMER
Klexikon
Luhn's algorithm (25 sentences)
BookSum
Echoes-Extractive-Abstractive
WikiHow
BertSum
GigaWord-10k
ERNIE-GENLARGE (large-scale text corpora)
MeetingBank
GovReport
FactorSum
BigPatent
BigBird-Pegasus
How2
OrangeSum
mBARThez (OrangeSum abstract)
AMI
Gazeta
Finetuned mBART
LCSTS
LSTM-seq2seq
BillSum
Longformer Encoder Decoder
arXiv
BigBird-Pegasus
ACI-Bench
CriSPO 3-shot
MentSum
CORD-19
EurekaAlert
CL-SciSumm
S2ORC
GenCompareSum
QMSum
BART-LS
XSum
SRformer-BART
Webis-Snippet-20 Corpus
Anchor-context + Query biased
BBC XSum
MatchSum
MeQSum
BiomedGPT
MediaSum
SRformer-BART