
要約
自動手術ジェスチャー認識は、ロボット支援手術における知能の向上に不可欠であり、手術監視や技術評価などの複雑なタスクを遂行するために重要です。しかし、現行の方法では各フレームを個別に処理し、将来の情報への効果的な考慮なしに結果を生成しています。本論文では、強化学習と木探索に基づく手術ジェスチャーセグメンテーションおよび分類のためのフレームワークを提案します。エージェントは、直接的な決定が適切に木探索によって再検討される人間のような方法で手術ビデオをセグメント化および分類するように訓練されます。我々が提案する木探索アルゴリズムは、ポリシーネットワークとバリューネットワークという2つの設計されたニューラルネットワークからの出力を統合します。異なるモデルから得られる補完的な情報の統合により、我々のフレームワークはいずれかのニューラルネットワークを使用する基準手法よりも優れた性能を達成できます。全体的な評価において、我々が開発した手法はJIGSAWSデータセットの縫合タスクにおいて既存手法よりも精度、編集スコア、F1スコアで一貫して優れています。本研究では、強化学習フレームワークにおける木探索の利用が手術ロボット応用での行動改善に有効であることを示しています。注:「JIGSAWS」(Jointly Integrated Gestures and Skills Assessment Workbench System)はそのまま表記しました。