
要約
動画ハイライト検出は、長時間の動画から最も魅力的なシーンを自動的に選定するタスクである。この問題は、現実世界の多様な動画からハイライトを一般化された方法で発見する能力を学ぶことを目指しているため、極めて困難である。また、ハイライトの定義は個人によって異なるため、このタスクには本質的な主観性が内在している。したがって、一貫性があり意味のあるハイライトを検出するため、従来のベンチマークデータセットは複数(5〜20名)の評価者によってラベル付けされている。しかし、手動ラベル付けには高いコストが伴うため、現存する大多数の公開ベンチマークは極めて小規模であり、数十〜数百本程度の動画しか含んでいない。このような不十分なデータセット規模は、評価の不安定性やトレイン・テスト分割に対する過敏性といった複数の問題を引き起こしている。本研究では、動画ハイライト検出および要約のための大規模データセット「Mr. HiSum」を提示する。このデータセットは31,892本の動画を含み、各動画について50,000人以上のユーザーからの信頼性の高いラベルを集約している。また、クロスデータセット転移とユーザースタディを用いた実証的な実験により、ラベルのフレーム重要性に関する信頼性を裏付けている。