Command Palette
Search for a command to run...
通过最大化视图间的互信息来学习表示
通过最大化视图间的互信息来学习表示
Philip Bachman R Devon Hjelm William Buchwalter
摘要
我们提出了一种基于最大化从共享上下文中提取的多个视图特征之间的互信息的自监督表示学习方法。例如,可以通过从不同位置(如场景内的不同摄像机位置)观察局部时空上下文来生成其多个视图,并通过不同的模态(如触觉、听觉或视觉)进行观察。或者,可以对ImageNet图像应用数据增强技术多次,从而从中生成多个视图。最大化这些视图特征之间的互信息需要捕捉那些影响跨越多个视图的高层次因素的信息——例如,某些对象的存在或某些事件的发生。根据我们提出的这种方法,我们开发了一个模型,该模型在我们考虑的任务中显著优于先前的方法。特别是,使用自监督学习,我们的模型在ImageNet上通过标准线性评估达到了68.1%的准确率。这一结果比之前的结果高出超过12%,比同期结果高出7%。当我们扩展模型以使用基于混合的表示时,分割行为作为自然的副产品出现。我们的代码已在线公开:https://github.com/Philip-Bachman/amdim-public。