16日前

SF-TMN:外科手術フェーズ認識のためのSlowFast時系列モデリングネットワーク

Bokai Zhang, Mohammad Hasan Sarhan, Bharti Goel, Svetlana Petculescu, Amer Ghanem
SF-TMN:外科手術フェーズ認識のためのSlowFast時系列モデリングネットワーク
要約

手術フェーズの自動認識は、手術教育における動画ベース評価(Video-Based Assessment, VBA)システムを支援する上で重要な技術の一つである。手術フェーズ認識において時系列情報を活用することは極めて重要であり、近年の多くのアプローチは、フレームレベルの特徴量を抽出することで、動画全体に対する時系列モデリングを実現している。本研究では、より優れた時系列モデリングを実現するため、フレームレベルおよびセグメントレベルの両方で動画全体に対する時系列モデリングが可能な「SlowFast時系列モデリングネットワーク(SF-TMN)」を提案する。SF-TMNの学習データとして、ターゲットデータセットで事前学習された特徴抽出ネットワークを用いて、動画フレームから特徴量を抽出する。SF-TMNのSlow Pathは、すべてのフレーム特徴量を用いてフレームレベルの時系列モデリングを実施し、Fast Pathはフレーム特徴量から要約されたセグメントレベル特徴量を用いてセグメントレベルの時系列モデリングを行う。本手法は、時系列モデリングネットワークの選択に柔軟性を有している。本研究では、MS-TCNおよびASFormerを時系列モデリングネットワークとして検討し、Slow PathとFast Pathの複数の組み合わせ戦略を実験的に評価した。Cholec80データセットにおける手術フェーズ認識タスクでの評価結果から、SF-TMNがすべての評価指標において最先端の性能を達成することを示した。特に、ASFormerをバックボーンとするSF-TMNは、最先端の非エンドツーエンド(Not End-to-End)TCN手法と比較して、正確率(accuracy)で2.6%、ジャッカードスコア(Jaccard score)で7.4%の向上を達成した。さらに、50salads、GTEA、Breakfastといったアクションセグメンテーションデータセットでも評価を行い、いずれにおいても最先端の性能を達成した。これらの結果から、時系列精調段階(temporal refinement stages)を用いてフレームレベルとセグメントレベルの時系列情報を統合・精査することで、手術フェーズの時系列モデリングにおいて顕著な性能向上が得られることを示した。

SF-TMN:外科手術フェーズ認識のためのSlowFast時系列モデリングネットワーク | 最新論文 | HyperAI超神経