17日前

ASPnet:複数のデータソースにおける共有・プライベート表現を用いたアクションセグメンテーション

{Danail Stoyanov, Imanol Luengo, Abdolrahim Kadkhodamohammadi, Beatrice van Amsterdam}
ASPnet:複数のデータソースにおける共有・プライベート表現を用いたアクションセグメンテーション
要約

現在の最先端の行動分割手法の多くは、単一の入力モダリティに依拠するか、複数のデータソースを単純に融合するものにとどまっている。しかし、補完的な情報を効果的に統合することで、分割モデルの性能を強化し、センサノイズに対してよりロバストになり、少ない訓練データでも高い精度を達成できる可能性がある。本研究では、マルチストリーム分割モデルの隠れ特徴を、複数のデータソースに共通する情報(モダリティ共有成分)と、各モダリティ固有の情報(プライベート成分)に分離するアプローチを提案する。さらに、連続する処理層において特徴の分離性を維持しつつ、長距離の時系列依存性をAttention Bottleneckを用いて捉える手法を採用する。50Salads、Breakfast、RARP45の各データセットにおける評価結果から、本手法はマルチビューおよびマルチモーダルなデータソースにおいて、さまざまなデータ統合ベースラインを上回る性能を示し、最先端の手法と比較しても競争力のある、あるいは優れた結果を達成した。また、加法性センサノイズに対してよりロバストであり、少ない訓練データでも強力な動画ベースラインと同等の性能を発揮できることが確認された。