2달 전

T2R-bench: 실제 산업 테이블에서 문서 수준 보고서 생성을 위한 벤치마크

Jie Zhang Changzai Pan Kaiwen Wei Sishi Xiong Yu Zhao Xiangyu Li Jiaxin Peng Xiaoyan Gu Jian Yang Wenhan Chang

초록

대규모 언어 모델(Large Language Models, LLMs)이 표 추론 능력에서 나타내는 가능성을 탐구하기 위한 광범위한 연구가 진행되어 왔다. 그러나 산업 적용 측면에서 표 정보를 보고서로 전환하는 핵심 과제는 여전히 큰 도전 과제로 남아 있다. 이 과제는 두 가지 핵심적인 문제에 시달리고 있다. 첫째, 표의 복잡성과 다양성이 높아 추론 결과가 최적화되지 않는 경우가 많으며, 둘째, 기존의 표 기반 벤치마크들이 이 과제의 실용적 적용 능력을 충분히 평가할 수 있는 능력을 갖추고 있지 않다. 이러한 격차를 메우기 위해 우리는 '표 → 보고서( table-to-report, T2R)' 과제를 제안하고, 이 과제에서 표에서 보고서로의 핵심 정보 흐름을 반영한 이중언어 벤치마크인 T2R-bench를 구축하였다. 이 벤치마크는 457개의 산업용 표로 구성되어 있으며, 모두 실제 산업 환경에서 수집된 데이터이며, 19개의 산업 분야와 4종류의 산업 표 유형을 포괄한다. 또한 보고서 생성 품질을 공정하게 평가할 수 있도록 평가 기준을 제안한다. 25개의 대표적인 LLM 모델에 대한 실험 결과, 최첨단 모델인 Deepseek-R1조차도 전체 점수 62.71에 그치는 것으로 나타나, 현재 LLMs는 T2R-bench에서 여전히 개선의 여지가 있음을 시사한다. 소스 코드와 데이터는 논문 수락 후 공개될 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

T2R-bench: 실제 산업 테이블에서 문서 수준 보고서 생성을 위한 벤치마크

Jie Zhang Changzai Pan Kaiwen Wei Sishi Xiong Yu Zhao Xiangyu Li Jiaxin Peng Xiaoyan Gu Jian Yang Wenhan Chang5 more

초록

AI로 AI 구축

Hyper Newsletters

Jie Zhang Changzai Pan Kaiwen Wei Sishi Xiong Yu Zhao Xiangyu Li Jiaxin Peng Xiaoyan Gu Jian Yang Wenhan Chang