2ヶ月前
MuST: 多スケール変換器を用いた手術フェーズ認識
Alejandra Pérez; Santiago Rodríguez; Nicolás Ayobi; Nicolás Aparicio; Eugénie Dessevres; Pablo Arbeláez

要約
手術動画におけるフェーズ認識は、コンピュータ支援手術システムの向上に不可欠であり、自動的な手順段階の理解を可能にするためです。既存の手法では、動的な手術フェーズを特定するために固定された時間窓を用いた動画分析に依存することが多いですが、これにより短・中・長期の情報を同時に捉えることが難しく、複雑な手術プロセスを完全に理解するのに必要な情報が不足します。これらの課題に対処するため、私たちは多尺度トランスフォーマー(Multi-Scale Transformers for Surgical Phase Recognition: MuST)という新しいトランスフォーマーに基づくアプローチを提案します。MuSTは、多項フレームエンコーダと時間一貫性モジュールを組み合わせることで、手術動画の複数の時間スケールでの情報を捉えます。私たちの多項フレームエンコーダは、関心のあるフレームを中心に徐々に間隔を広げてシーケンスをサンプリングすることで、時間スケールの階層構造における相互依存関係を計算します。さらに、フレーム埋め込みに対して長期トランスフォーマーエンコーダを使用して長期的な推論能力を強化しています。MuSTは3つの異なる公開ベンチマークにおいて、従来の最先端手法よりも高い性能を達成しています。