HyperAI초신경

홈 플랫폼 문서 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

질문 응답

질문 응답은 사용자가 컴퓨터 시스템을 통해 제시한 질문을 자동으로 답변하는 자연어 처리 분야의 중요한 작업입니다. 이 작업은 커뮤니티 질문 응답과 지식 기반 질문 응답 등의 하위 작업으로 나눌 수 있으며, 평가 지표는 주로 EM(정확 일치) 및 F1 점수를 포함합니다. 현재 인기 있는 벤치마크 데이터셋에는 SQuAD, HotPotQA, bAbI, TriviaQA, 그리고 WikiQA 등이 있습니다. 최근 몇 년간 T5와 XLNet 같은 모델들이 이 분야에서 뛰어난 성능을 보여주며, 질문 응답 시스템의 정확성과 실용성을 크게 향상시켰습니다.

GPT-3 175B (0-shot)

PaLM 540B (finetuned)

Natural Questions

Atlas (full, Wiki-dec-2018 index)

Memory Networks (ensemble)

PubMedBERT uncased

DRAGON + BioLinkBERT

TANDA-RoBERTa (ASNQ, WikiQA)

LLaMA 65B (zero-shot)

Quora Question Pairs

DeBERTa (large)

CNN / Daily Mail

QDGAT (ensemble)

OpenAI/o3-mini-2025-01-31-high

Natural Questions (long)

XLNet (single model)

TANDA DeBERTa-V3-Large + ALL

PaLM 2 (few-shot, CoT, SC)

Masque (NarrativeQA + MS MARCO)

FLAN 137B (zero-shot)

BERT Large Augmented (single model)

Children's Book Test

PubMedBERT uncased

ScanQA (w/ auxiliary loss)

Neo-6B (QA + WS)

ELASTIC (RoBERTa-large)

NExT-QA (Open-ended VideoQA)

GPT-4o-2024-08-06-128k

AI2 Kaggle Dataset

FiQA-2018 (BEIR)

BioLinkBERT (large)

catbAbI LM-mode

Fast Weight Memory

BART fine-tuned on FairytaleQA

HotpotQA (BEIR)

catbAbI QA-mode

Fast Weight Memory

Complex-CronQuestions

Fusion Retriever+ETC

Custom Legal-BERT

Vector Database (ChromaDB)

Mathematics Dataset

Gated-Attention Reader

MedTurkQuAD: Medical Turkish Question-Answering Dataset

VNHSGE-Geography

VNHSGE-Literature

WikiTableQuestions

TabSQLify (col+row)

COMPLEXQUESTIONS

MuLD (NarrativeQA)

FlowQA (single model)

MuLD (HotpotQA)

G-DAUG-Combo + RoBERTa-Large

GeoQuestions1089

Claude-3.5-Sonnet (ReAct)

VNHSGE Mathematics

Aristo Kaggle Allen AI 8th grade questions

VNHSGE-Chemistry

SimpleQuestions

MapEval-Textual

MRQA out-of-domain

ChAII - Hindi and Tamil Question Answering

JD Product Question Answer

Longformer Encoder Decoder (base)

syntax, frame, coreference, and word embedding features

EfficientQA test

multimodal+LXMERT+ConstrainedMaxPooling

MedMobile (3.8B)

T5-small+prolog

COCO Visual Question Answering (VQA) real images 1.0 open ended

EfficientQA dev

ComplexWebQuestions

RoBERTa-large Tagger + LIQUID (Ensemble)

squad_adversarial

squadshifts nyt

squadshifts amazon

squadshifts reddit

squadshifts new_wiki

질문 응답 | SOTA | HyperAI초신경