2ヶ月前

人中心のビデオ異常検出における空間時間ポーズトークン化とトランスフォーマーの利用

Ghazal Alinezhad Noghre; Armin Danesh Pazho; Hamed Tabkhi
人中心のビデオ異常検出における空間時間ポーズトークン化とトランスフォーマーの利用
要約

ビデオ異常検出(VAD)は、コンピュータビジョンにおいて重要な課題を呈しており、特に異常事象の予測不可能性と頻度の低さ、そしてそれらが発生する多様で動的な環境により難易度が高まっています。ヒューマンセンタリックVADは、この分野における専門的な領域であり、人間の行動の変化、データに潜在するバイアス、および被験者に関連するプライバシー問題などの追加的な複雑さを抱えています。これらの問題は、モデルの堅牢性と汎化能力の開発を複雑にしています。これらの課題に対処するために、最近の進歩ではポーズベースのVADに焦点を当てており、これは人間のポーズを高レベルな特徴として活用することでプライバシー問題を軽減し、外見バイアスを削減し、背景干渉を最小限に抑えることを目指しています。本論文では、ヒューマンセンタリックなポーズベースVADのために特別に設計された新しいトランスフォーマー基盤アーキテクチャであるSPARTAを紹介します。SPARTAは革新的な空間時間的ポーズと相対的ポーズ(ST-PRP)トークナイゼーション手法を導入しており、これにより時間経過とともに人間の動きが豊かに表現されます。この手法により、トランスフォーマーの注意機構が空間的パターンと時間的パターンを同時に捉えることが保証され、一方だけに焦点を当てるよりも優れた結果が得られます。さらに相対的ポーズの追加によって、正常な人間の動きからの微妙な逸脱が強調されます。アーキテクチャの中核となるのは新規の一貫型エンコーダ・ツインデコーダ(UETD)トランスフォーマーであり、これによりビデオデータ中の異常行動検出性能が大幅に向上します。複数のベンチマークデータセットでの広範な評価により示されたように、SPARTAは既存の方法よりも一貫して優れた性能を発揮し、ポーズベースVADにおける新たな最先端技術として確立されています。

人中心のビデオ異常検出における空間時間ポーズトークン化とトランスフォーマーの利用 | 最新論文 | HyperAI超神経