2ヶ月前

アクター非依存のマルチラベル行動認識とマルチモーダルクエリ

Mondal, Anindya ; Nag, Sauradip ; Prada, Joaquin M ; Zhu, Xiatian ; Dutta, Anjan
アクター非依存のマルチラベル行動認識とマルチモーダルクエリ
要約

既存の行動認識手法は、アクター間の内在的なトポロジカルおよび外見上の差異により、通常は特定のアクターに特化している。これには、人間と動物などの特定のアクターに対する姿勢推定が必要となり、モデル設計の複雑さが増し、維持コストも高くなる。さらに、これらの手法はしばしば視覚モダリティのみに焦点を当て、単一ラベル分類に重点を置く一方で、他の利用可能な情報源(例えばクラス名テキスト)や複数の行動が同時に起こることを無視している。これらの制約を克服するため、私たちは「アクターアnosticマルチモーダルマルチラベル行動認識」という新しいアプローチを提案する。このアプローチは人間と動物を含む様々なタイプのアクターに対して統一された解決策を提供する。また、変換器ベースの物体検出フレームワーク(例:DETR)において、視覚とテキストの両方のモダリティを利用することで行動クラスをよりよく表現する新しいモデルであるMulti-modal Semantic Query Network (MSQNet) を定式化した。特定のアクターに依存しないモデル設計の排除は重要な利点であり、アクターの姿勢推定そのものを必要としない。5つの公開ベンチマークデータセットでの広範な実験結果から、私たちのMSQNetは人間と動物に関する単一ラベルおよび複数ラベル行動認識タスクにおいて、最大50%まで既存の特定アクター向け手法よりも優れた性能を示していることが確認された。コードは https://github.com/mondalanindya/MSQNet で公開されている。

アクター非依存のマルチラベル行動認識とマルチモーダルクエリ | 最新論文 | HyperAI超神経