2ヶ月前

多タスク再帰的畳み込みネットワークと相関損失を用いた手術動画解析

Yueming Jin; Huaxia Li; Qi Dou; Hao Chen; Jing Qin; Chi-Wing Fu; Pheng-Ann Heng
多タスク再帰的畳み込みネットワークと相関損失を用いた手術動画解析
要約

手術器具の存在検出と手術フェーズの認識は、手術ビデオ分析における基本的かつ困難な課題であり、現代の手術室での様々な応用においても非常に重要な要素です。これらの2つの分析課題は、臨床実践において手術プロセスが明確に定義されているため相関性が高いにもかかわらず、これまでの多くの手法ではそれらを別々に扱い、その関連性を十分に活用していませんでした。本論文では、両者の関連性を活用して両方のタスクの性能を同時に向上させる新しい方法として、相関損失を持つマルチタスク再帰的畳み込みネットワーク(MTRCNet-CL)を開発しました。具体的には、提案するMTRCNet-CLモデルは2つのブランチを持つエンドツーエンドのアーキテクチャで構成されており、初期の特徴エンコーダーを共有して一般的な視覚的な特徴を抽出しつつ、各タスク向けの特定の層を持っています。時間情報がフェーズ認識にとって重要であることを考慮し、長期短期記憶(LSTM)を使用してフェーズ認識ブランチ内の系列依存性をモデル化しています。さらに重要な点として、新しいかつ効果的な相関損失が設計され、各ビデオフレームにおける器具の存在とフェーズ識別の間の関連性を最小化することにより予測値間の一貫性を高めています。低レベルの特徴共有と高レベルの予測相関という双方から相互作用を促進することで、MTRCNet-CL手法は両タスク間での相互補完を大幅に推進し、それぞれに利益をもたらします。大規模な手術ビデオデータセット(Cholec80)上で行われた広範な実験結果は、提案手法が優れた性能を示しており、既存の最先端手法に対して大幅に上回る結果を得ています(例えば、器具存在検出におけるmAPは89.1%対81.0%、フェーズ認識におけるF1スコアは87.4%対84.5%)。本研究に関連するコードはプロジェクトウェブサイトで公開されています。

多タスク再帰的畳み込みネットワークと相関損失を用いた手術動画解析 | 最新論文 | HyperAI超神経