2ヶ月前

LoViT: 手術フェーズ認識のための長時間ビデオトランスフォーマー

Yang Liu; Maxence Boels; Luis C. Garcia-Peraza-Herrera; Tom Vercauteren; Prokar Dasgupta; Alejandro Granados; Sebastien Ourselin
LoViT: 手術フェーズ認識のための長時間ビデオトランスフォーマー
要約

オンライン手術フェーズ認識は、手術ワークフローのパフォーマンスを定量的に評価し、その実行を監視する文脈に応じたツールの開発において重要な役割を果たします。現在のアプローチは、フレームレベルの教師あり学習を使用して空間特徴抽出器を訓練するため、異なるフェーズで類似したフレームが現れることによる誤った予測や、計算制約により局所と全局特徴の統合が不十分になるという制限があります。これは、手術介入で一般的に遭遇される長いビデオの分析に影響を与える可能性があります。本論文では、短時間と長時間の時系列情報を融合する方法として、Long Video Transformer (LoViT) という二段階手法を提案します。この手法は、時系列的に豊富な空間特徴抽出器と、自己注意に基づく2つの連続的なL-Transモジュールから構成される多尺度時系列集約器を組み合わせています。その後、ProbSparse自己注意に基づくG-Informerモジュールが全局時系列情報を処理します。多尺度時系列ヘッドは局所と全局特徴を結合し、フェーズ遷移に意識的な教師あり学習を使用して手術フェーズを分類します。我々のアプローチはCholec80およびAutoLaparoデータセットで一貫して最先端の手法を上回る性能を示しています。Trans-SVNetと比較して、LoViTはCholec80でのビデオレベル精度で2.4 pp(パーセンテージポイント)向上し、AutoLaparoでは3.1 pp向上しました。さらに、AutoLaparoでのフェーズレベルJaccard指数では5.3 pp向上し、Cholec80では1.55 pp向上しました。これらの結果は、異なる手術手続きと時系列特性を持つ2つのデータセットにおける手術フェーズ認識の最先端性能を達成しつつ、長いビデオに対応するメカニズムを導入した我々のアプローチの有効性を示しています。

LoViT: 手術フェーズ認識のための長時間ビデオトランスフォーマー | 最新論文 | HyperAI超神経