Rendezvous: 内視鏡動画における手術行動トリプレットの認識に向けた注意メカニズム

現存する内視鏡手術ビデオの手術ワークフロー解析フレームワークの中で、アクショントリプレット認識は唯一、手術活動に関する真正に詳細かつ包括的な情報を提供することを目指している手法として注目されています。この情報は、<器具, 動詞, 対象> の組み合わせとして提示され、その正確な識別は非常に困難です。トリプレットの各成分を個別に認識することは難しく、このタスクでは3つのトリプレット成分を同時に認識するとともに、それら間のデータ関連を正しく確立することが必要です。この課題を達成するために、我々は新しいモデルであるRendezvous (RDV) を提案します。RDVモデルは、2つの異なるレベルでの注意機構を活用して、内視鏡手術ビデオから直接トリプレットを認識します。まず、シーン内の個々のアクショントリプレット成分を捉えるための新しい形式の空間的注意機構であるClass Activation Guided Attention Mechanism (CAGAM) を導入します。この技術は、器具からの活性化結果を利用して動詞と対象の認識に焦点を当てます。次に、器具、動詞、対象間の関係性を効果的に捉えるために、トランスフォーマーネットワークに着想を得た新しい形式の意味的注意機構であるMulti-Head of Mixed Attention (MHMA) を追加します。MHMA技術は複数のクロスアテンションとセルフアテンションを使用してこれらの関係性を把握します。さらに、我々はCholecT50というデータセットも導入しました。これは50本の内視鏡手術ビデオで構成され、各フレームが100種類のトリプレットクラスからラベル付けされています。提案したRDVモデルは、このデータセットにおいて既存の最先端手法よりも平均AP(平均精度)が9%以上向上しており、アクショントリプレット予測において顕著な改善をもたらしています。