2달 전

Rendezvous: 내시경 영상에서 수술 동작 트리플렛 인식을 위한 주의 메커니즘

Nwoye, Chinedu Innocent ; Yu, Tong ; Gonzalez, Cristians ; Seeliger, Barbara ; Mascagni, Pietro ; Mutter, Didier ; Marescaux, Jacques ; Padoy, Nicolas
Rendezvous: 내시경 영상에서 수술 동작 트리플렛 인식을 위한 주의 메커니즘
초록

내시경 영상에서 수술 워크플로 분석을 위한 모든 기존 프레임워크 중에서, 액션 트리플렛 인식은 수술 활동에 대한 진정으로 세부적이고 포괄적인 정보를 제공하는 유일한 방법으로 돋보입니다. 이러한 정보는 <의료기구, 동사, 대상> 조합 형태로 제시되며, 정확히 식별하기가 매우 어렵습니다. 트리플렛 구성 요소들은 개별적으로 인식하기 어려울 수 있으며, 이 작업에서는 세 가지 트리플렛 구성 요소를 동시에 인식하는 것뿐만 아니라 그들 간의 데이터 연관성을 올바르게 설정하는 것이 필요합니다. 이를 달성하기 위해, 우리는 두 가지 다른 수준의 주의 메커니즘을 활용하여 내시경 영상에서 직접 트리플렛을 인식하는 새로운 모델인 랜데브루 (Rendezvous, RDV)를 소개합니다.우리는 먼저 장면 내 개별 액션 트리플렛 구성 요소를 포착하기 위한 새로운 형태의 공간 주의 메커니즘을 도입합니다. 이를 클래스 활성화 안내 주의 메커니즘 (Class Activation Guided Attention Mechanism, CAGAM)이라고 합니다. 이 기법은 의료기구로부터 발생하는 활성화를 사용하여 동사와 대상을 인식하는 데 초점을 맞춥니다. 연관성 문제를 해결하기 위해, 우리의 RDV 모델은 트랜스포머 네트워크에서 영감을 받은 새로운 형태의 의미론적 주의 메커니즘인 다중 혼합 주의 (Multi-Head of Mixed Attention, MHMA)를 추가합니다. 이 기법은 여러 크로스 및 셀프 주의를 사용하여 의료기구, 동사 및 대상 간의 관계를 효과적으로 포착합니다.또한, 우리는 50개의 내시경 영상을 포함하고 있으며 각 프레임이 100개의 트리플렛 클래스 라벨로 주석 처리된 CholecT50라는 데이터셋을 소개합니다. 제안된 RDV 모델은 이 데이터셋에서 최신 방법론과 비교하여 트리플렛 예측 평균 AP(mean Average Precision)를 9% 이상 향상시키는 것으로 나타났습니다.

Rendezvous: 내시경 영상에서 수술 동작 트리플렛 인식을 위한 주의 메커니즘 | 최신 연구 논문 | HyperAI초신경