2달 전

확산 모델을 통한 수술 트리플릿 인식

Liu, Daochang ; Hu, Axel ; Shah, Mubarak ; Xu, Chang
확산 모델을 통한 수술 트리플릿 인식
초록

수술 트리플렛 인식은 차세대 컨텍스트 인식 수술실을 구현하기 위한 필수적인 구성 요소입니다. 이 연구의 목표는 수술 영상 프레임에서 나타나는 도구, 동사, 및 대상의 조합을 식별하는 것입니다. 본 논문에서는 확산 모델을 활용하여 수술 트리플렛을 반복적인 노이즈 제거를 통해 예측하는 새로운 생성적 프레임워크인 DiffTriplet을 제안합니다. 트리플렛 연관 문제를 해결하기 위해, 우리의 확산 프레임워크에는 연관 학습(association learning)과 연관 가이드라인(association guidance)이라는 두 가지 독특한 설계가 포함되어 있습니다. 훈련 과정에서는 트리플렛과 개별 구성 요소의 결합 공간에서 모델을 최적화하여 그들 사이의 의존성을 포착합니다. 추론 시에는 반복적인 노이즈 제거 과정의 각 업데이트에 연관 제약 조건을 통합하여 개별 구성 요소의 정보를 사용해 트리플렛 예측을 정교하게 다듬습니다. CholecT45와 CholecT50 데이터셋에서 수행된 실험 결과, 제안된 방법이 수술 트리플렛 인식 분야에서 새로운 최고 성능을 달성하는 우수성을 보여주었습니다. 우리의 코드는 공개될 예정입니다.