CholecTriplet2021: 手術動作トリプレット認識のベンチマークチャレンジ

手術室におけるコンテキスト認識型意思決定支援は、手術ワークフロー解析からのリアルタイムフィードバックを活用することで、手術の安全性と効率性を向上させる可能性があります。既存の多くの研究では、フェーズ、ステップ、イベントなどの粗粒度レベルでの手術活動を認識しており、より詳細な相互作用情報が欠落しています。しかし、これらの情報は手術室でより有用なAIアシスタンスを実現するために必要です。手術行動を<器具, 動詞, 対象>のトリプレット組み合わせとして認識することで、手術ビデオ内で行われている活動に関する包括的な詳細情報を提供できます。本論文では、MICCAI 2021で開催された内視鏡ビジョンチャレンジ「CholecTriplet2021」について紹介します。このチャレンジでは、大規模なCholecT50データセットへのプライベートアクセスが許可されました。このデータセットには、行動トリプレット情報が注釈されています。本論文では、チャレンジに参加したチームが提案した最先端の深層学習手法の設定と評価について述べています。チャレンジ主催者から提供された4つのベースライン手法と競合チームが開発した19つの新しい深層学習アルゴリズムが紹介され、これらは手術ビデオから直接手術行動トリプレットを認識し、平均精度(mAP)は4.2%から38.1%まで達しています。また、本研究では提出された手法によって得られた結果の重要性を分析し、それらの間で徹底的な方法論的比較を行い、詳細な結果解析を行いました。さらに、認識性能向上のために新たなアンサンブル手法を提案しています。我々の分析によれば、手術ワークフロー解析はまだ解決されておらず、細粒度レベルでの手術活動認識に関する将来の研究方向性も示唆されています。これは外科分野におけるAI開発にとって極めて重要な課題であることが強調されています。