2ヶ月前

ロボット手術における正確なジェスチャ認識のための視覚と運動学埋め込み上の関係グラフ学習

Yonghao Long; Jie Ying Wu; Bo Lu; Yueming Jin; Mathias Unberath; Yun-Hui Liu; Pheng Ann Heng; Qi Dou
ロボット手術における正確なジェスチャ認識のための視覚と運動学埋め込み上の関係グラフ学習
要約

自動手術ジェスチャー認識は、ロボット手術における知能型認知支援を可能にする上で極めて重要です。最近のロボット支援下での低侵襲手術の進歩により、手術ビデオやロボットの運動学情報などの豊富なデータが記録できるようになり、これらは手術ジェスチャーの理解に補完的な知識を提供します。しかし、既存の方法では単一モーダルデータのみを使用するか、またはマルチモーダル表現を直接連結するものが多く、視覚情報と運動学情報に内在する情報的な相関関係を十分に活用できず、ジェスチャ認識精度の向上が制限されています。この点において、我々は新しいオンライン手法であるマルチモーダル関係グラフネットワーク(Multi-Modal Relational Graph Network, 以下MRG-Net)を提案します。この手法は潜在特徴空間における対話的なメッセージ伝播を通じて視覚情報と運動学情報を動的に統合します。具体的には、まず時系列畳み込みネットワークとLSTMユニットを使用してビデオと運動学シーケンスから埋め込みを抽出します。次に、これらのマルチモーダル埋め込み内の複数の関係を識別し、階層的関係グラフ学習モジュールを通じてそれらを利用します。我々の手法の有効性は、公開されているJIGSAWSデータセットで最先端の結果を示すことで証明されており、縫合および結紮タスクにおいて現在の単一モーダルおよびマルチモーダル手法を上回っています。さらに、2つの施設でda Vinci Research Kit (dVRK) プラットフォームを使用して収集された自社ビジュアル-運動学データセットでも検証を行い、一貫した有望な性能が得られました。