2 个月前

MILDNet:一种轻量级单尺度深度排序架构

Anirudha Vishvakarma
MILDNet:一种轻量级单尺度深度排序架构
摘要

多尺度深度CNN架构[1, 2, 3]在视觉相似性任务中成功捕捉了图像的细粒度和粗粒度描述符,但它们带来了高昂的内存开销和延迟。本文提出了一种竞争性的新型CNN架构,称为MILDNet,其优势在于显著紧凑(约为现有模型的三分之一)。受连续CNN层以递增抽象层次表示图像这一事实的启发,我们将多个中间层的激活与最后一层结合,将我们的深度排序模型压缩为单个CNN。通过在著名的Street2shop数据集[4]上进行训练,我们展示了该方法在参数量、模型大小、训练时间和推理时间方面仅为当前最先进模型的三分之一,且性能相当。此外,我们在Holidays、Oxford和Paris[5]等流行数据集上的实验也证明了中间层在图像检索任务中的重要性。因此,尽管我们的实验是在电子商务领域进行的,但该方法同样适用于其他领域。我们进一步进行了消融研究,通过检查添加每个中间层的影响来验证我们的假设。在此基础上,我们还提出了两种更有用的MILDNet变体:一种适用于边缘设备的移动模型(比现有模型小12倍)和一种适用于低RAM系统并减少排序成本的功能紧凑型模型(512维特征嵌入)。此外,我们还介绍了一种直观的方法来自动创建定制的内部三元组训练数据集,这是一项非常难以手动完成的任务。该解决方案也可以作为一整套视觉相似性解决方案部署。最后,我们介绍了整个生产级别的架构,目前该架构正在Fynd公司支持视觉相似性功能。