2 个月前

视觉问答技巧与心得:2017年挑战赛的经验总结

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel
视觉问答技巧与心得:2017年挑战赛的经验总结
摘要

本文介绍了一种最先进的视觉问答(VQA)模型,该模型在2017年VQA挑战赛中荣获第一名。鉴于视觉问答任务的多模态特性、明确的评估协议以及潜在的实际应用价值,它对人工智能研究具有重要意义。深度神经网络在视觉问答任务中的性能很大程度上取决于架构和超参数的选择。为了推动该领域的进一步研究,我们详细描述了我们的高性能但相对简单的模型。通过超过3000个GPU小时的大规模架构和超参数探索,我们总结了导致其成功的关键技巧,具体包括:sigmoid输出、软训练目标、自下而上的注意力图像特征、门控tanh激活函数、使用GloVe和Google Images初始化的输出嵌入、大批次训练以及智能洗牌训练数据。我们提供了这些技巧对性能影响的详细分析,以帮助其他研究人员做出合适的选择。

视觉问答技巧与心得:2017年挑战赛的经验总结 | 最新论文 | HyperAI超神经