2달 전
로봇 수술에서 정확한 제스처 인식을 위한 시각적 및 운동학적 임베딩의 관계 그래프 학습
Yonghao Long; Jie Ying Wu; Bo Lu; Yueming Jin; Mathias Unberath; Yun-Hui Liu; Pheng Ann Heng; Qi Dou

초록
자동 수술 제스처 인식은 로봇 수술에서 지능형 인지 지원을 가능하게 하는 데 있어 근본적으로 중요합니다. 최근 로봇 보조 최소 침습 수술의 발전으로, 수술 영상과 로봇 운동학 등의 풍부한 정보를 기록할 수 있게 되었으며, 이는 수술 제스처 이해에 필요한 보완적 지식을 제공합니다. 그러나 기존 방법들은 단일 모달 데이터만을 사용하거나 다중 모달 표현을 직접 연결하는 방식을 취하여, 시각적 정보와 운동학적 정보 간의 유익한 상관관계를 충분히 활용하지 못해 제스처 인식 정확도를 향상시키는 데 한계가 있습니다. 이에 따라, 우리는 잠재 특성 공간에서 상호 메시지 전파를 통해 시각적 정보와 운동학적 정보를 동적으로 통합하는 새로운 온라인 접근 방식인 다중 모달 관계 그래프 네트워크(즉, MRG-Net)를 제안합니다. 구체적으로, 먼저 시간 컨볼루션 네트워크와 LSTM 유닛을 사용하여 비디오 및 운동학 시퀀스에서 임베딩을 추출합니다. 그 다음, 이러한 다중 모달 임베딩에서 여러 관계를 식별하고 계층적 관계 그래프 학습 모듈을 통해 이를 활용합니다. 우리의 방법의 효과성은 공개된 JIGSAWS 데이터셋에서 최신 연구 결과로 입증되었으며, 봉합 및 매듭 묶기 작업 모두에서 현재 단일 모달 및 다중 모달 방법들을 능가하는 성능을 보였습니다. 또한, 두 센터에서 da Vinci Research Kit (dVRK) 플랫폼으로 수집된 내부 비디오-운동학 데이터셋에서도 일관되게 우수한 성능을 달성함으로써 우리의 방법이 검증되었습니다.