2ヶ月前

HACS: 認識と時間的局在化のための人間行動クリップおよびセグメントデータセット

Hang Zhao; Antonio Torralba; Lorenzo Torresani; Zhicheng Yan
HACS: 認識と時間的局在化のための人間行動クリップおよびセグメントデータセット
要約

本論文では、ウェブ動画から収集した人間の行動認識と時間的局所化のための新しい大規模データセットを紹介します。このデータセットをHACS(Human Action Clips and Segments)と呼びます。視覚分類器間の合意と不一致を活用して、ラベル付けされていない動画から自動的に候補となる短いクリップを抽出し、その後人間のアノテーターによって検証されます。その結果得られたデータセットをHACS Clipsと呼びます。また別のプロセスを通じて、行動区間の境界を定義するアノテーションも収集しました。この結果得られたデータセットはHACS Segmentsと呼ばれています。全体として、HACS Clipsには50万4千件の未編集動画からサンプリングされた150万件のアノテーション付きクリップが含まれており、HACS Segmentsには200種類の行動カテゴリにわたる5万件の未編集動画に密集してアノテーションされた13万9千件の行動区間が含まれています。HACS Clipsは既存のビデオベンチマークよりも多くのラベル付き例を含んでおり、これにより当該データセットは大規模な行動認識ベンチマークおよび空間時間的な特徴学習に優れた情報源となっています。転移学習実験において、3つのターゲットデータセットを使用してHACS ClipsがKinetics-600、Moments-In-TimeおよびSports1Mより優れた事前学習ソースであることを示しています。さらにHACS Segmentsでは、最新の行動提案生成手法や行動局所化手法を評価し、当該データセットが持つ密集した時間的アノテーションによって提起される新たな課題について指摘しています。

HACS: 認識と時間的局在化のための人間行動クリップおよびセグメントデータセット | 最新論文 | HyperAI超神経