日期
大小
发布地址
许可协议
CC BY 4.0
分类
Visual Genome Dataset は、クラウドソーシングの高密度画像アノテーションを通じて言語と視覚を結び付けるデータ セットであり、多肢選択環境での Visual Question Answering データが含まれています。
このデータセットには、101,174 個の MSCOCO 画像からなる 170 万個の QA ペアが含まれており、画像ごとに平均 17 個の質問があります。
Visual Question Answering データ セットと比較して、Visual Genome データ セットには、「何を、どこで、いつ、誰が、なぜ、どのように」の 6 種類の質問がよりバランスよく分散されています。さらに、Visual Genome は、オブジェクト、属性、および関係性の注釈が密に付けられた 108,000 枚の画像を表示します。
做种 1
下载中 0
已完成 547
总下载 841