LSVTD ビデオ テキスト理解データセット

LSVTD は大規模ビデオ テキスト データセットの略で、21 の自然シーンからの 100 個のビデオが含まれています。このデータセットは、13 の屋内 (書店、ショッピング モールなど) と 9 つの屋外シーンを幅広くカバーしており、その多様性は IC15 データセットの 3 倍以上です。
LSVTD は大規模ビデオ テキスト データセットの略で、21 の自然シーンからの 100 個のビデオが含まれています。このデータセットは、13 の屋内 (書店、ショッピング モールなど) と 9 つの屋外シーンを幅広くカバーしており、その多様性は IC15 データセットの 3 倍以上です。