本数据集信息来自 Campinas State University MO434 学科知识库。
这是一个简单的 Flask 应用,可以根据图像和关于图像的自然语言问题生成答案。该应用在后台使用了一个通过 TensorFlow 训练的深度学习模型。
深度学习的发展促进了多模态学习相关任务的解决。视觉问答 (VQA) 是其中极具挑战的例子,它要求从图像中进行高阶场景的解释 (interpretation),并结合相关的问答语言进行建模。给定一张图像和关于该图像的自然语言问题,任务是提供一个准确的自然语言答案。这是一个使用 Keras 实现的端到端系统,旨在完成这一任务。
模型架构基于论文 Hierarchical Question-Image Co-Attention for Visual Question Answering 。
做种 1
下载中 0
已完成 61
总下载 243