
摘要
通过整合多种弱监督(Weak Supervision, WS)来源,可以缓解机器学习应用中普遍存在的数据标注瓶颈问题,从而替代耗时费力的人工获取真实标签的过程。然而,当前最先进的无监督训练数据方法通常需要两个独立的建模步骤:首先基于弱监督来源学习一个概率潜变量模型——该过程往往依赖于在实际中极少成立的假设;随后再进行下游模型的训练。值得注意的是,第一步的建模过程并未考虑下游模型的性能表现。针对上述局限,我们提出一种端到端的方法,通过神经网络对先前的概率后验分布进行重参数化,生成概率标签,并直接最大化下游模型与这些标签的一致性,从而实现对下游模型的端到端学习。实验结果表明,相较于以往方法,本方法在下游测试集上的最终模型性能显著提升,同时对弱监督来源之间依赖关系的鲁棒性也得到显著增强。