HAA500:精選動画を備えた人間中心型アトミックアクションデータセット

我々は、500クラスにわたり591,000フレーム以上を手動でラベル付けした人間中心型の原子行動データセット「HAA500」を提案する。行動分類における曖昧さを最小限に抑えるために、HAA500は細分化された原子行動の多様なクラスを含んでおり、同一ラベルに属する行動は一貫性を持つもののみを対象としている。たとえば、「野球の投球(Baseball Pitching)」と「バスケットボールのフリースロー(Free Throw in Basketball)」は、同じ行動動詞「投げる(Throw)」で表現されがちな粗い分類では同一とされてしまうが、HAA500では明確に区別される。この点において、HAA500は従来の原子行動データセットとは異なり、粗い行動動詞(例:「投げる」)でラベル付けされた粗い原子行動を扱うのではなく、細粒度かつ正確な行動を捉えることを目的としている。また、HAA500は、人間の姿勢の正確な動きを捉えるよう丁寧に収集・編集されており、クラスに無関係な動きや空間的・時間的ラベルノイズが極力排除されている。HAA500の利点は以下の4点に集約される:1)人間中心の行動データであり、関連する人間ポーズに対して平均69.7%の関節が検出可能である;2)拡張性が高く、新しいクラスの追加が20~60分程度で実施可能である;3)不要なフレームを含まず、原子行動の本質的な要素のみを捉えた動画が収録されている;4)細粒度な原子行動クラスを有している。本研究では、野外で収集されたデータセットを用いたクロスデータ検証を含む広範な実験を通じて、HAA500の「人間中心性」と「原子性」が明確な利点をもたらすことを示した。特に、単なるベースラインの深層学習モデルであっても、原子的な人間ポーズに注目させることで予測性能が向上することが確認された。本稿では、HAA500の統計情報およびデータ収集手法を詳細に提示し、既存の行動認識データセットと定量的に比較検討する。