الملخص النصي
تجميع النص هو مهمة في معالجة اللغة الطبيعية تهدف إلى ضغط الوثائق الطويلة إلى إصدارات أقصر وأكثر دقة مع الحفاظ على المعلومات الأساسية والمعنى الأصلي للنص. الهدف منه هو إنتاج ملخصات تعكس بدقة محتوى النص الأصلي، مما يمكّن المستخدمين من فهم المعلومات الرئيسية بسرعة. تشمل هذه المهمة كلًا من الطرق الاستخراجية والتجريدية؛ الأولى تحدد وتستخرج الجمل أو العبارات الهامة، بينما الثانية تولّد نصًا جديدًا بناءً على محتوى الوثيقة الأصلية. له تطبيقات قيمة كبيرة في مجالات مثل التقارير الإخبارية والأدب العلمي والتقارير التجارية.
GigaWord
BART-RXF
Pubmed
Arxiv HEP-TH citation graph
MTEB
X-Sum
Selfmem
CNN / Daily Mail (Anonymized)
DUC 2004 Task 1
Transformer+WDrop
SAMSum
Reddit TIFU
arXiv Summarization Dataset
PRIMER
DialogSum
InstructDS
Klexikon
Luhn's algorithm (25 sentences)
BookSum
Echoes-Extractive-Abstractive
GigaWord-10k
ERNIE-GENLARGE (large-scale text corpora)
WikiHow
BertSum
BigPatent
BigBird-Pegasus
GovReport
FactorSum
How2
MeetingBank
OrangeSum
mBARThez (OrangeSum abstract)
ACI-Bench
CriSPO 3-shot
AMI
arXiv
BigBird-Pegasus
BBC XSum
MatchSum
BillSum
Longformer Encoder Decoder
CL-SciSumm
CORD-19
EurekaAlert
Gazeta
Finetuned mBART
LCSTS
LSTM-seq2seq
MediaSum
SRformer-BART
MentSum
MeQSum
BiomedGPT
QMSum
BART-LS
S2ORC
GenCompareSum
Webis-Snippet-20 Corpus
Anchor-context + Query biased
XSum
SRformer-BART