
摘要
在机器学习长达数十年的发展历程中,循环神经网络(RNNs)主要应用于序列数据和时间序列分析,通常处理一维信息。即便在少数涉及二维图像的研究中,RNN也仅被用于顺序地学习和生成数据,而非用于图像识别任务。在本研究中,我们提出在设计图像识别模型时,将RNN作为附加层引入。同时,我们构建了端到端的多模型集成方法,通过多个模型协同生成专家级预测结果。此外,我们对训练策略进行了扩展,使得所提出的模型在性能上可与当前领先模型相媲美,甚至在多个具有挑战性的数据集上达到或超越当前最优水平(如SVHN:0.99,Cifar-100:0.9027,Cifar-10:0.9852)。特别地,我们的模型在Surrey数据集上创造了新的纪录(0.949)。本文所提出方法的源代码已公开,可访问:https://github.com/leonlha/e2e-3m 和 http://nguyenhuuphong.me。