2 个月前
Pythia v0.1:2018年VQA挑战赛的获胜作品
Yu Jiang; Vivek Natarajan; Xinlei Chen; Marcus Rohrbach; Dhruv Batra; Devi Parikh

摘要
本文档描述了Facebook人工智能研究院(FAIR)A-STAR团队在2018年VQA挑战赛中的获胜作品Pythia v0.1。我们的起点是对自下而上至自上而下的(bottom-up top-down,简称up-down)模型进行模块化的重新实现。我们证明了通过对模型架构和学习率调度进行细微但重要的修改,微调图像特征并添加数据增强,可以显著提高up-down模型在VQA v2.0数据集上的性能——从65.67%提升到70.22%。此外,通过使用不同特征和不同数据集训练的多样化模型组合,我们能够在“标准”集成方法(即同一模型使用不同的随机种子)的基础上进一步显著提升1.31%。总体而言,我们在VQA v2.0数据集的test-std分割上达到了72.27%的准确率。我们的全部代码(包括训练、评估、数据增强和集成)以及预训练模型均已公开发布于:https://github.com/facebookresearch/pythia