17 天前
少即是多:基于CLIP特征的线性层构建强大的VizWiz模型
Fabian Deuser, Konrad Habel, Philipp J. Rösch, Norbert Oswald

摘要
当前用于多模态任务(如视觉问答)的架构普遍存在复杂度较高的问题,导致其训练困难且对计算资源需求较高。为解决这一问题,本文提出一种基于CLIP的新型架构,该架构无需对特征提取器进行任何微调。在该模型中,仅通过一个简单的线性分类器对图像编码器与文本编码器的特征拼接结果进行处理。在训练过程中,引入一个辅助损失函数,该损失函数作用于答案类型(answer types),并利用其输出作为注意力门控机制,指导答案类别选择。在VizWiz 2022视觉问答挑战赛中,该方法在任务1(预测视觉问题的答案)上取得了60.15%的准确率,在任务2(预测视觉问题的可回答性)上获得了83.78%的平均精度(AP)得分。