2ヶ月前

EndoNet: 内視鏡動画の認識タスク向けの深層アーキテクチャ

Andru P. Twinanda; Sherif Shehata; Didier Mutter; Jacques Marescaux; Michel de Mathelin; Nicolas Padoy
EndoNet: 内視鏡動画の認識タスク向けの深層アーキテクチャ
要約

手術ワークフローの認識は、手術ビデオデータベースの自動索引作成やリアルタイムでの手術室スケジューリングの最適化など、多くの潜在的な医療応用が期待されています。そのため、白内障手術、神経系手術、腹腔鏡手術などのさまざまな種類の手術におけるフェーズ認識が研究されてきました。文献では、このタスクを実行するために通常2種類の特徴量が使用されています:視覚特徴量と器具使用信号です。しかし、使用される視覚特徴量は主にハンドクラフトされたものであり、さらに器具使用信号は通常、手動アノテーションプロセスまたは追加の機器を使用して収集されます。本論文では、新しいフェーズ認識手法を提案します。この手法は、畳み込みニューラルネットワーク(CNN)を使用して胆嚢摘出術ビデオから特徴量を自動的に学習し、視覚情報のみに依存します。以前の研究では、器具信号がフェーズ認識タスクにおいて有用な情報を提供することが示されています。したがって、マルチタスクでフェーズ認識と器具存在検出を行うために設計された新しいCNNアーキテクチャであるEndoNetを提示します。当該研究者らの知る限りでは、これは腹腔鏡ビデオに対して複数の認識タスクをCNNで行う最初の試みとなります。他の方法との広範な実験比較により、EndoNetは両方のタスクで最先端の結果をもたらすことが確認されました。

EndoNet: 内視鏡動画の認識タスク向けの深層アーキテクチャ | 最新論文 | HyperAI超神経