Textklassifizierung
Text-Klassifizierung ist eine Kernaufgabe der natürlichen Sprachverarbeitung, die darauf abzielt, Textdaten in vordefinierte Kategorien einzuordnen. Diese Aufgabe ermöglicht eine effiziente Informationsorganisation und -retrieval, indem sie den Inhalt des Textes analysiert und dessen Merkmale wie Thema, Stimmung oder Absicht identifiziert. In den letzten Jahren haben tiefes Lernmodelle wie XLNet und RoBERTa die Leistungsfähigkeit der Textklassifizierung erheblich verbessert und technologische Fortschritte getrieben. Benchmark-Datensätze wie GLUE und AGNews werden häufig verwendet, um die Effektivität dieser Modelle zu bewerten.
MTEB
ST5-XXL
DBpedia
XLNet
R8
RoBERTaGCN
AG News
TREC-6
Automatic Label Error Correction
20NEWS
RoBERTaGCN
UK Key Stage Readability
Yahoo! Answers
BERT-ITPT-FiT
MR
Ohsumed
SGCN
NewsDiscourse
R52
GraphStar
Yelp-5
HAHNN (CNN)
Yelp-2
Lot-insts
Character-BERT+RS
MVICTOR (type)
WeeBit (Readability Assessment)
BART-RF-T1 hybrid
OneStopEnglish (Readability Assessment)
RoBERTa-RF-T1 hybrid
DODF Data
ULMFiT (pre-trained vocab, no gradual unfreezing)
SVICTOR (type)
Amazon-2
arXiv-10
Protoformer
ThreatGram 101 - Extreme Telegram Data
GPT-2
RCV1
NLP-Cap
HateXplain
BLURB
BioLinkBERT (large)
Terms of Service
Overruling
Custom Legal-BERT
Amazon-5
Sogou News
BERT-ITPT-FiT
Twitter
IMDb Movie Reviews
Logistic Regression
TREC-50
MuLD (Character Type)
This is not a Dataset
Searchsnippets
An Amharic News Text classification Dataset
Naive Bayes using Tf-idf features
GLUE SST2
Social media attributions of YouTube comments
SST-2
Twitter Sentiment Analysis
Logistic Regression
BANKING77
NICE-45
NICE-2
TREC-10
BERT
Twitter-US
AffCon 2020 Emotion Detection
STOPS-2
ERNIE 2.0
GLUE MRPC
GLUE RTE
SILICONE Benchmark
TRAC2-English. Task2.
FMC-MWO2KG
Flair
20 Newsgroups
RoBERTaGCN
Hyperpartisan News Detection
BigBird
Facebook Media
Patents
BigBird
Arxiv HEP-TH citation graph
BigBird
TRAC2-Benghali. Task 2.
BERT
RusAge: Corpus for Age-Based Text Classification
LSVC + linguistic features + publishing attributes
STOPS-41
WNUT-2020 Task 2
NutCracker
Hyperpartisan
Adverse Drug Events (ADE) Corpus
GLUE COLA
SST2
MNIST
GLUE STSB
hate_speech18
GLUE QQP
financial_phrasebank
catalonia_independence
book-text-classifier
KLUE
amazon_reviews_multi
Unknown
emotion
New_York_Times_Topics
IMDb
clinc_oos
NSFW-Safe-Dataset
SemEval 2014 Task 4 (Restaurants)
ade_corpus_v2Ade_corpus_v2_classification
GLUE
tecla