Command Palette

Search for a command to run...

2달 전

T2R-bench: 실제 산업 테이블에서 문서 수준 보고서 생성을 위한 벤치마크

T2R-bench: 실제 산업 테이블에서 문서 수준 보고서 생성을 위한 벤치마크

초록

대규모 언어 모델(Large Language Models, LLMs)이 표 추론 능력에서 나타내는 가능성을 탐구하기 위한 광범위한 연구가 진행되어 왔다. 그러나 산업 적용 측면에서 표 정보를 보고서로 전환하는 핵심 과제는 여전히 큰 도전 과제로 남아 있다. 이 과제는 두 가지 핵심적인 문제에 시달리고 있다. 첫째, 표의 복잡성과 다양성이 높아 추론 결과가 최적화되지 않는 경우가 많으며, 둘째, 기존의 표 기반 벤치마크들이 이 과제의 실용적 적용 능력을 충분히 평가할 수 있는 능력을 갖추고 있지 않다. 이러한 격차를 메우기 위해 우리는 '표 → 보고서( table-to-report, T2R)' 과제를 제안하고, 이 과제에서 표에서 보고서로의 핵심 정보 흐름을 반영한 이중언어 벤치마크인 T2R-bench를 구축하였다. 이 벤치마크는 457개의 산업용 표로 구성되어 있으며, 모두 실제 산업 환경에서 수집된 데이터이며, 19개의 산업 분야와 4종류의 산업 표 유형을 포괄한다. 또한 보고서 생성 품질을 공정하게 평가할 수 있도록 평가 기준을 제안한다. 25개의 대표적인 LLM 모델에 대한 실험 결과, 최첨단 모델인 Deepseek-R1조차도 전체 점수 62.71에 그치는 것으로 나타나, 현재 LLMs는 T2R-bench에서 여전히 개선의 여지가 있음을 시사한다. 소스 코드와 데이터는 논문 수락 후 공개될 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp