为了更好地评估 LLM 在表格问答方面的能力,北京航空航天大学、滑铁卢大学、复旦大学和北京信息科技大学的研究团队联合发布了 TableBench 表格问答基准,相关论文成果为「TableBench: A Comprehensive and Complex Benchmark for Table Question Answering」。
TableBench 是一个人工注释的全面而复杂的 TableQA 基准,包含 18 个领域的 886 个样本,旨在促进事实核查、数字推理、数据分析和可视化任务。此外,团队还开源了 TableInstruct 大规模指令语料库,旨在用各种推理方法指导 LLM 。
TableBench.torrent
做种 2正在下载 1已完成 106总下载次数 133