VQA-Datensatz Für Visuelle Fragen Und Antworten
Datum
Größe
Lizenz
其他
Dieser Datensatz stammt aus Staatliche Universität Campinas MO434 Fachliche Wissensdatenbank.
Einführung
Dies ist eine einfache Flask-Anwendung, die Antworten basierend auf einem Bild und Fragen in natürlicher Sprache zum Bild generiert. Die App verwendet im Hintergrund ein mit TensorFlow trainiertes Deep-Learning-Modell.
Modellübersicht
Die Entwicklung des Deep Learning hat die Lösung multimodaler Lernaufgaben gefördert. Visual Question Answering (VQA) ist ein sehr anspruchsvolles Beispiel, das eine Szeneninterpretation auf hohem Niveau aus Bildern und die Modellierung einer relevanten Frage-Antwort-Sprache erfordert. Bei einem Bild und einer Frage in natürlicher Sprache zu dem Bild besteht die Aufgabe darin, eine genaue Antwort in natürlicher Sprache zu geben. Dies ist ein mit Keras implementiertes End-to-End-System, das diese Aufgabe erfüllen soll.
Modellarchitektur basierend auf dem Papier Hierarchische Frage-Bild-Co-Attention zur visuellen Beantwortung von Fragen .