HyperAI超神经

本数据集信息来自 Campinas State University MO434 学科知识库。

简介

这是一个简单的 Flask 应用，可以根据图像和关于图像的自然语言问题生成答案。该应用在后台使用了一个通过 TensorFlow 训练的深度学习模型。

模型概览

深度学习的发展促进了多模态学习相关任务的解决。视觉问答 (VQA) 是其中极具挑战的例子，它要求从图像中进行高阶场景的解释 (interpretation)，并结合相关的问答语言进行建模。给定一张图像和关于该图像的自然语言问题，任务是提供一个准确的自然语言答案。这是一个使用 Keras 实现的端到端系统，旨在完成这一任务。

模型架构基于论文 Hierarchical Question-Image Co-Attention for Visual Question Answering 。

VQA 视觉问答数据集 (Visual Question Answering)

简介

模型概览