2 个月前
AxCell:从机器学习论文中自动提取结果
Marcin Kardas; Piotr Czapla; Pontus Stenetorp; Sebastian Ruder; Sebastian Riedel; Ross Taylor; Robert Stojnic

摘要
追踪机器学习领域的进展随着近期论文数量的激增变得越来越困难。在本文中,我们介绍了AxCell,一种用于从论文中提取结果的自动机器学习流水线。AxCell采用了若干创新组件,包括一个表格分割子任务,以学习有助于结果提取的相关结构知识。与现有方法相比,我们的方法显著提升了结果提取的最先进水平。此外,我们还发布了一个用于训练结果提取模型的结构化注释数据集,以及一个用于评估模型在此任务上性能的数据集。最后,我们展示了该方法的可行性,使其能够在生产环境中实现半自动的结果提取,这表明我们的改进首次使这一任务具有了实际应用的价值。代码已在GitHub上公开。科技/学术术语处理说明:- “machine learning” 译为“机器学习”- “pipeline” 译为“流水线”- “table segmentation” 译为“表格分割”- “state of the art” 译为“最先进水平”- “annotated dataset” 译为“注释数据集”- “performance evaluation” 译为“性能评估”