
要約
手術ジェスチャーの認識は、手術スキルの評価と効率的な手術訓練において重要な役割を果たします。このタスクに関する従来の研究では、HMM(隠れマルコフモデル)やCRF(条件付き随伴フィールド)などの変種グラフィカルモデル、またはRNN(再帰型ニューラルネットワーク)やTCN(時間畳み込みネットワーク)などの深層学習モデルが使用されてきました。しかし、現在の大多数の手法は過分割に悩まされており、その結果セグメントレベルでの編集スコアが低くなっています。これに対して、我々はこのタスクを逐次的決定プロセスとしてモデリングする全く異なる方法論を提案します。深層モデルから抽出された階層的特徴量を使用して強化学習で知能エージェントを訓練し、時間的一貫性をアクション設計と報酬メカニズムに組み込むことで過分割誤りを削減しています。JIGSAWSデータセットにおける実験結果は、提案手法が編集スコアにおいて最先端の手法よりも優れており、フレーム単位の精度でも同等であることを示しています。我々のコードは後日公開される予定です。