VQA 视觉问答数据集 (Visual Question Answering)

日期

1 年前

大小

58.91 MB

机构

许可协议

其他

本数据集信息来自 Campinas State University MO434 学科知识库。

简介

这是一个简单的 Flask 应用,可以根据图像和关于图像的自然语言问题生成答案。该应用在后台使用了一个通过 TensorFlow 训练的深度学习模型。

模型概览

深度学习的发展促进了多模态学习相关任务的解决。视觉问答 (VQA) 是其中极具挑战的例子,它要求从图像中进行高阶场景的解释 (interpretation),并结合相关的问答语言进行建模。给定一张图像和关于该图像的自然语言问题,任务是提供一个准确的自然语言答案。这是一个使用 Keras 实现的端到端系统,旨在完成这一任务。

模型架构基于论文 Hierarchical Question-Image Co-Attention for Visual Question Answering

VQA.torrent

做种 1

下载中 0

已完成 61

总下载 243

  • VQA/
    • README.md
      1.56 KB
    • README.txt
      3.12 KB
      • data/
        • LICENSE
          4.16 KB
        • README.md
          8.21 KB
        • main.py
          11.21 KB
          • models/
              • __pycache__/
                • arch.cpython-36.pyc
                  13.8 KB
                • layers.cpython-36.pyc
                  20.06 KB
            • arch.py
              23.74 KB
            • layers.py
              31.9 KB
          • pickles/
            • complete_model.h5
              58.23 MB
            • labelencoder.pkl
              58.3 MB
            • text_tokenizer.pkl
              58.88 MB
        • related-work.md
          58.88 MB
        • requirements.txt
          58.88 MB
          • static/
            • stop_grande.jpg
              58.89 MB
          • templates/
            • error.html
              58.89 MB
            • index.html
              58.9 MB
          • utils/
              • __pycache__/
                • helper_functions.cpython-36.pyc
                  58.9 MB
                • load_pickles.cpython-36.pyc
                  58.9 MB
            • helper_functions.py
              58.91 MB
            • load_pickles.py
              58.91 MB