8 个月前

Weihaao Yu* Zihang Jiang* Yanfei Dong Jiashi Feng

摘要

近期，强大的预训练语言模型在大多数流行的阅读理解数据集上取得了显著的性能表现。现在是时候引入更具挑战性的数据集，以推动该领域向更加全面的文本推理方向发展。本文介绍了一个新的阅读理解数据集（ReClor），该数据集从标准化的研究生入学考试中提取而来，要求进行逻辑推理。先前的研究表明，人工标注的数据集通常包含偏差，这些偏差往往被模型利用来实现高精度而无需真正理解文本。为了全面评估模型在ReClor上的逻辑推理能力，我们提出识别有偏的数据点，并将其划分为EASY集合，其余部分则归为HARD集合。实证结果表明，最先进的模型在捕捉数据集中包含的偏差方面表现出色，在EASY集合上取得了高精度。然而，它们在HARD集合上的表现较差，几乎接近随机猜测的水平，这表明需要进一步研究以实质性地提升当前模型的逻辑推理能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Weihaao Yu* Zihang Jiang* Yanfei Dong Jiashi Feng

摘要

近期，强大的预训练语言模型在大多数流行的阅读理解数据集上取得了显著的性能表现。现在是时候引入更具挑战性的数据集，以推动该领域向更加全面的文本推理方向发展。本文介绍了一个新的阅读理解数据集（ReClor），该数据集从标准化的研究生入学考试中提取而来，要求进行逻辑推理。先前的研究表明，人工标注的数据集通常包含偏差，这些偏差往往被模型利用来实现高精度而无需真正理解文本。为了全面评估模型在ReClor上的逻辑推理能力，我们提出识别有偏的数据点，并将其划分为EASY集合，其余部分则归为HARD集合。实证结果表明，最先进的模型在捕捉数据集中包含的偏差方面表现出色，在EASY集合上取得了高精度。然而，它们在HARD集合上的表现较差，几乎接近随机猜测的水平，这表明需要进一步研究以实质性地提升当前模型的逻辑推理能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供