HyperAI초신경

문서
뉴스
연구 논문
튜토리얼
데이터셋
백과사전
SOTA
LLM 모델
GPU 랭킹
컨퍼런스

소개 서비스 약관 개인정보 처리방침
한국어

HyperAI초신경

Command Palette

Search for a command to run...

홈
SOTA
언어모델링

언어모델링

언어 모델링은 문서에서 다음 단어나 문자를 예측하는 작업으로, 훈련된 언어 모델은 텍스트 생성, 텍스트 분류, 질문 응답 등 다양한 자연어 처리 작업에 적용될 수 있습니다. 2010년대 이후로는 신경망 기반 언어 모델이 N-gram 모델을 대체하였으며, 2020년대 이후로는 대형 언어 모델(Large Language Models, LLMs)이 최고 성능을 달성하기 위한 유일한 방법이 되었습니다. 이러한 모델의 성능은 크로스 엔트로피와 퍼플렉서티 등의 지표를 사용하여 평가되며, 일반적으로 사용되는 데이터셋에는 WikiText-103, One Billion Word, Text8, C4, The Pile 등이 있습니다.

Penn Treebank (Word Level)

GPT-3 (Zero-Shot)

GPT-2 (48 layers, h=1600)

Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)

SparseGPT (175B, 50% Sparsity)

GPT-3 175B (Few-Shot)

One Billion Word

OmniNetT (Large)

Penn Treebank (Character Level)

Mogrifier LSTM + dynamic eval

Transformer-XL + RMS dynamic eval

Spirit-LM (Expr.)

GLM-130B (3-shot)

FewCLUE (OCNLI-FC)

FewCLUE (EPRSTMT)

CLUE (CMRC2018)

CLUE (OCNLI_50K)

FewCLUE (CHID-FC)

Hybrid 4-gram VietMed-Train + ExtraText

FewCLUE (BUSTM)

FewCLUE (CLUEWSC-FC)

Transformer-LS (small)

Curation Corpus

USPTO Backgrounds

Ethereum Phishing Transaction Network

PTB Diagnostic ECG Database

Gutenberg PG-19

language-modeling-recommendation

Transformer-LS (small)

Arxiv HEP-TH citation graph

100 sleep nights of 8 caregivers

PubMed Cognitive Control Abstracts

PAR Transformer 24B

2000 HUB5 English

학습, 이해, 실천, 커뮤니티와 함께 인공지능의 미래를 구축하다

한국어

소개

회사 소개 데이터셋 도움말

제품

뉴스 튜토리얼 데이터셋 백과사전

링크

© HyperAI초신경

Discord X (formerly Twitter)

언어모델링 | SOTA | HyperAI초신경