2 个月前

重新思考用于计算机视觉的Inception架构

Christian Szegedy; Vincent Vanhoucke; Sergey Ioffe; Jonathon Shlens; Zbigniew Wojna
重新思考用于计算机视觉的Inception架构
摘要

卷积网络是大多数最先进的计算机视觉解决方案的核心,适用于各种任务。自2014年以来,非常深的卷积网络开始成为主流,为各种基准测试带来了显著的性能提升。尽管增加模型规模和计算成本通常会在大多数任务中立即提高质量(前提是提供足够的标记数据用于训练),但计算效率和低参数数量仍然是许多应用场景的重要因素,例如移动视觉和大数据场景。本文探讨了通过适当分解卷积和积极正则化来扩大网络规模的方法,旨在尽可能高效地利用增加的计算资源。我们在ILSVRC 2012分类挑战验证集上对这些方法进行了基准测试,展示了相对于现有技术的重大改进:单帧评估时,使用每推理50亿次乘加运算且参数量少于2500万的网络,达到了21.2%的Top-1错误率和5.6%的Top-5错误率。通过4个模型的集成和多裁剪评估,我们在验证集上报告了3.5%的Top-5错误率(测试集上的错误率为3.6%)和17.3%的Top-1错误率。