8ヶ月前

概要

既存の「人間」に関連するビデオタスクの多くは、注目すべき人物のセグメンテーションに焦点を当て、ビデオ内の特定されていない他の人物を無視しています。複雑なビデオ内におけるすべての人間（歩行者や座っている、乗っている、または遮蔽されている状態の人間など）のセグメンテーションと追跡に焦点を当てる研究は少ないです。本論文では、一段階検出器に基づいて与えられたビデオ内のすべての登場人物をセグメンテーションおよび追跡する新しいフレームワークであるHVISNet（Human Video Instance Segmentation Network）を提案します。より複雑なシーンを評価するために、私たちは新しいベンチマークであるHVIS（Human Video Instance Segmentation）を提供します。このベンチマークには、多様なシーンで撮影された805本の高解像度ビデオに含まれる1447個の人間インスタンスマスクが含まれています。広範な実験により、提案したHVISNetがリアルタイム推論速度（30 FPS）において最新手法よりも高い精度を達成していることが示されました。特に複雑なビデオシーンでの性能が優れています。また、バウンディングボックスの中心を使用して異なる個人を区別すると、特に重度の遮蔽条件下ではセグメンテーション精度が著しく低下することが観察されました。この一般的な現象は「曖昧な正例サンプル問題」と呼ばれています。この問題を緩和するために、私たちはインスタンスセグメンテーションの精度向上に寄与するInner Center Samplingというメカニズムを提案します。このようなプラグアンドプレイ型のInner Center Samplingメカニズムは、一段階検出器に基づく任意のインスタンスセグメンテーションモデルに組み込むことができ、性能向上に貢献します。特に遮蔽された人間の場合には、最新手法に対して4.1 mAP（mean Average Precision）の改善が見られました。コードとデータセットは以下のURLから入手可能です: https://github.com/IIGROUP/HVISNet.

ソースPDF コードを表示