11日前
AutoShot:短時間動画データセットおよび最先端のショット境界検出
Wentao Zhu, Yufang Huang, Xiufeng Xie, Wenxian Liu, Jincan Deng, Debing Zhang, Zhangyang Wang, Ji Liu

要約
ショートフォーム動画は爆発的な人気を博し、新たなソーシャルメディアのトレンドを牽引している。クアッシュウ(Kwai)、ティックトック、インスタグラム・リールズ、ユーチューブ・ショーツなど、主流のショート動画プラットフォームは、コンテンツの消費と制作のあり方を根本から変革している。動画コンテンツの作成および理解において、ショット境界検出(Shot Boundary Detection: SBD)は、さまざまなシナリオにおいて最も重要な要素の一つである。本研究では、853本の完全なショート動画と11,606件のショットアノテーションを含み、テスト用に200本の動画に2,716件の高品質なショット境界アノテーションを備えた、新たな公開データセット「SHOT」を公開する。この新データセットを活用して、多様な先進的な3D ConvNetおよびTransformerを統合した検索空間内でのニューラルアーキテクチャ探索(Neural Architecture Search)を実施し、SBD用モデルの設計最適化を提案する。提案手法は「AutoShot」と名付けられ、新しく構築したSHOTデータセット上で評価した結果、従来の最先端手法(例:TransNetV2)を4.2%上回るF1スコアを達成した。さらに、AutoShotアーキテクチャの汎化能力を検証するため、他の3つの公開データセット(ClipShots、BBC、RAI)上でも直接評価を行った結果、それぞれ1.1%、0.9%、1.2%のF1スコア向上を達成し、既存の最先端手法を上回った。SHOTデータセットおよびコードは、https://github.com/wentaozhu/AutoShot.git にて公開されている。