
摘要
我们提出一种名为“Expansion机制”的方法,该方法在处理输入时不受序列中元素数量的限制。相较于传统的基于注意力机制的方法,该机制使模型能够更高效地学习。为验证这一观点,我们设计了一种新型架构——ExpansionNet v2,在MS COCO 2014图像描述挑战赛中取得了优异成绩,达到该类别当前最先进水平:在离线测试集上获得143.7的CIDEr-D得分,在在线评估服务器上获得140.8的CIDEr-D得分,在NoCaps验证集上取得72.9的AllCIDEr得分。此外,我们还提出一种端到端训练算法,其训练速度比现有主流方法快达2.8倍。源代码已公开,可访问:https://github.com/jchenghu/ExpansionNet_v2