2 个月前
UnifiedQA:用单一问答系统跨越格式边界
Daniel Khashabi; Sewon Min; Tushar Khot; Ashish Sabharwal; Oyvind Tafjord; Peter Clark; Hannaneh Hajishirzi

摘要
问答(QA)任务采用了多种格式,如抽取式片段选择、多项选择等。这导致了针对特定格式的模型的出现,甚至在问答社区内部形成了隐性的划分。我们认为,这些界限是人为设定的,或许没有必要存在,因为我们要教授的推理能力并不受格式的限制。作为证据,我们利用最新的语言模型进展构建了一个单一的预训练问答模型——UnifiedQA,该模型在涵盖4种不同格式的17个问答数据集上表现出了令人惊讶的效果。UnifiedQA的表现与9个分别在单个数据集上训练的不同模型相当。即使面对12个未见过但属于已知格式的数据集时,UnifiedQA仍然表现出色,显示出其从非标准格式训练数据中具有强大的泛化能力。最后,仅需对这个预训练的问答模型进行微调以生成专门化的模型,便能在6个数据集上达到新的最先进水平,从而确立了UnifiedQA作为构建问答系统的一个强大起点的地位。