2R がテキストベースのビデオ検索に関するデータセットである方法。このデータ セットには、HowTo 100M データ セットの 9,371 本のビデオから収集された 24,328 個の 60 年代クリップと、それらに関連する 51,390 個の関連クエリ ワードが含まれており、クリップごとに平均 2 ~ 3 個の関連クエリ ワードが含まれています。 80% のデータはトレーニングに使用され、10% のデータは検証に使用され、10% のデータはテストに使用されます。
How 2R と How 2QA は、ビデオ検索とビデオ質問応答の分野を研究するために使用できる、新しい挑戦的なベンチマークです。