
摘要
领域特定数据是机器学习系统从基准测试成功转移到实际应用的关键。在图像分类等简单问题中,众包已成为一种廉价且高效的数据收集工具,这在很大程度上得益于聚合方法研究的进步。然而,由于缺乏针对这些模态的原理性聚合方法,众包在更复杂任务(如语音识别)中的适用性仍然有限。设计适用于更高级应用的聚合方法的主要障碍是缺乏训练数据,在这项工作中,我们专注于弥合语音识别领域的这一差距。为此,我们收集并发布了CrowdSpeech——首个公开可用的大规模众包音频转录数据集。对现有和新型聚合方法在我们数据集上的评估表明还有改进的空间,这表明我们的工作可能促使更好的算法设计。在更高层次上,我们也为通过众包可靠地收集数据这一更具普遍性的挑战做出了贡献。具体而言,我们设计了一种原理性的流程,用于构建任何新领域的众包音频转录数据集。我们在资源不足的语言上展示了该流程的适用性,构建了VoxDIY——俄语版本的CrowdSpeech。此外,我们还发布了允许完全复现我们数据收集流程的代码,并分享了关于通过众包进行数据收集的最佳实践的各种见解。