7일 전
MM-OR: 고강도 수술 환경의 의미 이해를 위한 대규모 다중모달 수술실 데이터셋
Ö, zsoy, Ege, Pellegrini, Chantal, Czempiel, Tobias, Tristram, Felix, Yuan, Kun, Bani-Harouni, David, Eck, Ulrich, Busam, Benjamin, Keicher, Matthias, Navab, Nassir

초록
수술실(OR)은 의료진, 도구 및 장비 간의 상호작용을 정밀하게 이해해야 하는 복잡하고 높은 위험도를 지닌 환경으로, 수술 보조, 상황 인식 및 환자 안전을 향상시키기 위해 필수적이다. 현재 존재하는 데이터셋은 규모, 현실성 측면에서 부족하며, 수술실 환경의 다중모달성(Multimodality)을 충분히 반영하지 못해 수술실 모델링 분야의 발전을 제한하고 있다. 이를 해결하기 위해 우리는 현실감 있고 대규모의 다중모달 시공간 수술실 데이터셋 MM-OR을 소개하며, 다중모달 시나리오 그래프 생성을 가능하게 하는 최초의 데이터셋을 제안한다. MM-OR은 RGB-D 데이터, 세부 시점 이미지, 음성, 음성 전사본, 로봇 로그 및 추적 데이터를 포함하는 포괄적인 수술실 장면을 캡처하며, 팬오틱 세그멘테이션, 의미론적 시나리오 그래프, 그리고 하류 작업 레이블로 주석이 달려 있다. 또한, 시나리오 그래프 생성을 위한 최초의 다중모달 대규모 비전-언어 모델인 MM2SG를 제안한다. 광범위한 실험을 통해 MM2SG가 다중모달 입력을 효과적으로 활용할 수 있음을 입증하였다. MM-OR과 MM2SG는 통합적인 수술실 이해를 위한 새로운 기준을 제시하며, 복잡하고 고위험도 환경에서의 다중모달 시나리오 분석으로의 길을 열어준다. 코드 및 데이터는 https://github.com/egeozsoy/MM-OR 에서 공개되어 있다.