HyperAIHyperAI

Command Palette

Search for a command to run...

视觉问答技巧与心得:2017年挑战赛的经验总结

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

摘要

本文介绍了一种最先进的视觉问答(VQA)模型,该模型在2017年VQA挑战赛中荣获第一名。鉴于视觉问答任务的多模态特性、明确的评估协议以及潜在的实际应用价值,它对人工智能研究具有重要意义。深度神经网络在视觉问答任务中的性能很大程度上取决于架构和超参数的选择。为了推动该领域的进一步研究,我们详细描述了我们的高性能但相对简单的模型。通过超过3000个GPU小时的大规模架构和超参数探索,我们总结了导致其成功的关键技巧,具体包括:sigmoid输出、软训练目标、自下而上的注意力图像特征、门控tanh激活函数、使用GloVe和Google Images初始化的输出嵌入、大批次训练以及智能洗牌训练数据。我们提供了这些技巧对性能影响的详细分析,以帮助其他研究人员做出合适的选择。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供