テキストサマリゼーション
テキスト要約は、自然言語処理のタスクの一つで、長い文書を短く、より簡潔なバージョンに圧縮しながら、元のテキストの核心的な情報と意味を保持することを目指しています。その目的は、要約が元の内容を正確に反映し、ユーザーが重要な情報を迅速に理解できるようにすることです。このタスクには、抽出的と生成的な方法の両方が含まれます。前者は重要な文やフレーズを識別して抽出し、後者は元の文書の内容に基づいて新しいテキストを生成します。テキスト要約は、ニュース報道、科学文献、ビジネスレポートなどの分野で大きな応用価値を持っています。
GigaWord
BART-RXF
Pubmed
Arxiv HEP-TH citation graph
MTEB
X-Sum
Selfmem
CNN / Daily Mail (Anonymized)
DUC 2004 Task 1
Transformer+WDrop
SAMSum
Reddit TIFU
arXiv Summarization Dataset
PRIMER
DialogSum
InstructDS
Klexikon
Luhn's algorithm (25 sentences)
BookSum
Echoes-Extractive-Abstractive
GigaWord-10k
ERNIE-GENLARGE (large-scale text corpora)
WikiHow
BertSum
BigPatent
BigBird-Pegasus
GovReport
FactorSum
How2
MeetingBank
OrangeSum
mBARThez (OrangeSum abstract)
ACI-Bench
CriSPO 3-shot
AMI
arXiv
BigBird-Pegasus
BBC XSum
MatchSum
BillSum
Longformer Encoder Decoder
CL-SciSumm
CORD-19
EurekaAlert
Gazeta
Finetuned mBART
LCSTS
LSTM-seq2seq
MediaSum
SRformer-BART
MentSum
MeQSum
BiomedGPT
QMSum
BART-LS
S2ORC
GenCompareSum
Webis-Snippet-20 Corpus
Anchor-context + Query biased
XSum
SRformer-BART