
要約
手術トリプレット認識は、次世代のコンテキストアウェア手術室を実現するための重要な構成要素です。その目的は、手術動画フレームに表示される器具、動詞、および対象物の組み合わせを特定することです。本論文では、DiffTripletという新しい生成フレームワークを提案します。これは拡散モデルを用いた手術トリプレット認識手法で、反復的なノイズ除去により手術トリプレットを予測します。トリプレット関連付けの課題に対処するために、当該拡散フレームワークでは2つの独自設計が提案されています。すなわち、関連付け学習と関連付けガイダンスです。訓練中には、トリプレットと個々の成分の結合空間においてモデルを最適化し、それらの間の依存関係を捉えます。推論時には、反復的なノイズ除去プロセスの各更新に関連付け制約を取り入れることで、個々の成分情報を用いてトリプレット予測を洗練します。CholecT45およびCholecT50データセットでの実験結果は、提案手法が手術トリプレット認識における新たな最先端性能を達成していることを示しており、その優位性が確認されました。当方のコードは公開されます。以上が翻訳となります。ご確認ください。