Date

4 years ago

Organization

Publish URL

tamaraberg.com

Paper URL

arxiv.org

License

Other

Tags

Image Captioning

Visual Question Answering

Visual Document Retrieval

Image Understanding

Visual Madlibs contains 360,001 natural language descriptions for 10,738 images. The dataset uses automatically generated fill-in-the-blank templates to collect descriptions of several targets, including: people and objects, appearance, activities and interactions, and inferences about general scenes or broader contexts.

This dataset is contributed by community users and is intended for educational and informational purposes only. If any content involves copyright infringement, please contact us at [email protected] for prompt review and removal.