Startseite Neuigkeiten Neueste Forschungsarbeiten Tutorials Datensätze Wiki SOTA LLM-Modelle GPU-Rangliste Veranstaltungen

Deutsch

Sprachmodellierung

Sprachmodellierung ist die Aufgabe, das nächste Wort oder den nächsten Buchstaben in einem Dokument vorherzusagen. Trainierte Sprachmodelle können auf verschiedene Aufgaben der natürlichen Sprachverarbeitung angewendet werden, wie zum Beispiel Textgenerierung, Textklassifizierung und Fragebeantwortung. Seit den 2010er Jahren haben neurale Sprachmodelle die N-Gramm-Modelle abgelöst, und nach den 2020er Jahren sind große Sprachmodelle (LLMs) der einzige Weg, um den aktuellen Stand der Technik zu erreichen. Die Fähigkeiten dieser Modelle werden mit Metriken wie Kreuzentropie und Perplexität bewertet, wobei gängige Datensätze WikiText-103, One Billion Word, Text8, C4 und The Pile umfassen.

Penn Treebank (Word Level)

GPT-3 (Zero-Shot)

GPT-2 (48 layers, h=1600)

Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)

SparseGPT (175B, 50% Sparsity)

GPT-3 175B (Few-Shot)

One Billion Word

OmniNetT (Large)

Penn Treebank (Character Level)

Mogrifier LSTM + dynamic eval

Transformer-XL + RMS dynamic eval

Spirit-LM (Expr.)

GLM-130B (3-shot)

CLUE (CMRC2018)

CLUE (OCNLI_50K)

FewCLUE (BUSTM)

FewCLUE (CHID-FC)

FewCLUE (CLUEWSC-FC)

FewCLUE (EPRSTMT)

FewCLUE (OCNLI-FC)

Hybrid 4-gram VietMed-Train + ExtraText

Ethereum Phishing Transaction Network

100 sleep nights of 8 caregivers

2000 HUB5 English

Arxiv HEP-TH citation graph

Curation Corpus

Transformer-LS (small)

PAR Transformer 24B

Gutenberg PG-19

language-modeling-recommendation

PTB Diagnostic ECG Database

PubMed Cognitive Control Abstracts

Transformer-LS (small)

USPTO Backgrounds