手術ワークフローおよびスキル分析における機械学習アルゴリズムの比較検証:HeiCholeベンチマークを用いた研究

目的:手術ワークフローおよびスキル分析は、次世代認知型手術支援システムの核心技術である。これらのシステムは、文脈に応じた警告や準自律型ロボット支援を通じて手術の安全性を向上させるとともに、データ駆動型フィードバックにより外科医のトレーニングを改善することが可能である。既存のオープンデータ・シングルセンター・データセットにおいて、手術フェーズ認識の平均精度は最大91%まで報告されている。本研究では、より困難な認識タスク(例えば手術行動や手術スキル)を含むマルチセンター環境におけるフェーズ認識アルゴリズムの汎用性を検証した。方法:この目的を達成するため、3つの外科センターから提供された33件の腹腔鏡胆嚢切除術動画(合計手術時間22時間)から構成されるデータセットを構築した。ラベルには、7つの手術フェーズのアノテーション(250件のフェーズ遷移)、4種類の手術行動の出現回数5514件、7つの器械カテゴリに分類される21種類の手術器械の出現回数6980件、および5つのスキル次元における495件のスキル評価が含まれていた。このデータセットは、2019年エンドスコピックビジョンチャレンジ(Endoscopic Vision Challenge)のサブチャレンジ「手術ワークフローおよびスキル分析」に採用された。本チャレンジには12の研究チームが参加し、フェーズ・行動・器械の存在検出および/またはスキル評価のための機械学習アルゴリズムを提出した。結果:フェーズ認識においては、9チームがF1スコア23.9%~67.7%を達成した。器械の存在検出では8チームが38.5%~63.8%のF1スコアを記録したが、行動認識のF1スコアは5チームによる評価でわずか21.8%~23.3%にとどまった。スキル評価の平均絶対誤差は1チームによる評価で0.78であった。結論:手術ワークフローおよびスキル分析は外科チームを支援する有望な技術であるが、本研究におけるアルゴリズム比較から明らかなように、まだ完全に解決されていない課題を抱えている。本研究で構築したこの新規ベンチマークは、今後の研究における比較的評価および検証の基盤として活用可能である。