19 天前

多模态菜谱中程序性概念的潜在对齐

Hossein Rajaby Faghihi, Roshanak Mirzaee, Sudarshan Paliwal, Parisa Kordjamshidi
多模态菜谱中程序性概念的潜在对齐
摘要

我们提出了一种新颖的对齐机制,用于处理在新发布的多模态问答数据集RecipeQA上的程序性推理任务。该模型旨在解决文本完形填空任务,即在包含图像与操作说明的食谱文本上进行阅读理解。通过利用注意力网络的强大能力、跨模态表示,以及在操作说明与候选答案之间构建的隐式对齐空间,我们有效解决了该问题。此外,我们引入了约束性最大池化(constrained max-pooling)方法,对对齐矩阵上的最大池化操作进行优化,以在模型输出之间施加互斥约束。实验结果表明,该方法相比基线模型取得了19%的性能提升。

多模态菜谱中程序性概念的潜在对齐 | 论文 | HyperAI超神经