HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
语言建模

语言建模

Language Modeling 是预测文档中下一个词或字符的任务，可训练语言模型应用于文本生成、文本分类和问答等自然语言处理任务。自2010年代起，神经语言模型取代了N-gram模型，2020年代后，大型语言模型（LLMs）成为实现最先进水平的唯一途径。模型的能力通过交叉熵和困惑度评估，常用数据集包括WikiText-103、One Billion Word、Text8、C4和The Pile。

Penn Treebank (Word Level)

GPT-3 (Zero-Shot)

GPT-2 (48 layers, h=1600)

Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)

SparseGPT (175B, 50% Sparsity)

GPT-3 175B (Few-Shot)

One Billion Word

OmniNetT (Large)

Penn Treebank (Character Level)

Mogrifier LSTM + dynamic eval

Transformer-XL + RMS dynamic eval

Spirit-LM (Expr.)

GLM-130B (3-shot)

FewCLUE (EPRSTMT)

Hybrid 4-gram VietMed-Train + ExtraText

FewCLUE (OCNLI-FC)

FewCLUE (CLUEWSC-FC)

FewCLUE (CHID-FC)

CLUE (CMRC2018)

CLUE (OCNLI_50K)

FewCLUE (BUSTM)

PubMed Cognitive Control Abstracts

PTB Diagnostic ECG Database

USPTO Backgrounds

Transformer-LS (small)

Gutenberg PG-19

PAR Transformer 24B

100 sleep nights of 8 caregivers

2000 HUB5 English

Arxiv HEP-TH citation graph

Curation Corpus

Transformer-LS (small)

Ethereum Phishing Transaction Network

language-modeling-recommendation

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
语言建模

语言建模

Language Modeling 是预测文档中下一个词或字符的任务，可训练语言模型应用于文本生成、文本分类和问答等自然语言处理任务。自2010年代起，神经语言模型取代了N-gram模型，2020年代后，大型语言模型（LLMs）成为实现最先进水平的唯一途径。模型的能力通过交叉熵和困惑度评估，常用数据集包括WikiText-103、One Billion Word、Text8、C4和The Pile。

Penn Treebank (Word Level)

GPT-3 (Zero-Shot)

GPT-2 (48 layers, h=1600)

Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)

SparseGPT (175B, 50% Sparsity)

GPT-3 175B (Few-Shot)

One Billion Word

OmniNetT (Large)

Penn Treebank (Character Level)

Mogrifier LSTM + dynamic eval

Transformer-XL + RMS dynamic eval

Spirit-LM (Expr.)

GLM-130B (3-shot)

FewCLUE (EPRSTMT)

Hybrid 4-gram VietMed-Train + ExtraText

FewCLUE (OCNLI-FC)

FewCLUE (CLUEWSC-FC)

FewCLUE (CHID-FC)

CLUE (CMRC2018)

CLUE (OCNLI_50K)

FewCLUE (BUSTM)

PubMed Cognitive Control Abstracts

PTB Diagnostic ECG Database

USPTO Backgrounds

Transformer-LS (small)

Gutenberg PG-19

PAR Transformer 24B

100 sleep nights of 8 caregivers

2000 HUB5 English

Arxiv HEP-TH citation graph

Curation Corpus

Transformer-LS (small)

Ethereum Phishing Transaction Network

language-modeling-recommendation

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili