日期
机构
发布地址
davar-lab.github.io
许可协议
其他
标签
文章理解
テキスト認識
ビデオテキストの理解
分类
LSVTD は大規模ビデオ テキスト データセットの略で、21 の自然シーンからの 100 個のビデオが含まれています。このデータセットは、13 の屋内 (書店、ショッピング モールなど) と 9 つの屋外シーンを幅広くカバーしており、その多様性は IC15 データセットの 3 倍以上です。