전체적인 수술 장면 이해를 위한 연구

대부분의 수술 개입 연구를 위한 벤치마크는 특정 도전 과제에 초점을 맞추는 대신 다양한 작업 간의 본질적인 보완성(Complementarity)을 활용하지 않습니다. 본 연구에서는 전반적인 수술 장면 이해를 위한 새로운 실험적 프레임워크를 제시합니다. 첫째, 우리는 로봇 지원 근본적 전립선 절제술 비디오에서 장기적(Phase and Step recognition)과 단기적(Instrument detection and novel Atomic Action recognition) 추론을 모두 포함하는 Phase, Step, Instrument, 그리고 Atomic Visual Action 인식(PSI-AVA) 데이터셋을 소개합니다. PSI-AVA는 단계와 단계 인식 뿐만 아니라 기구 검출과 새로운 원자 행동 인식을 위한 주석을 포함하고 있습니다. 둘째, 우리는 수술 장면 이해를 위한 강력한 기준 모델인 Action, Phase, Instrument 및 단계 인식용 트랜스포머(TAPIR)를 제시합니다. TAPIR은 데이터셋의 다단계 주석을 활용하여 기구 검출 작업에서 학습된 표현得益於改進其分類能力。我们在PSI-AVA和其他公开可用数据库中的实验结果证明了我们框架对未来整体数术场景理解研究的推动作用。为了保持句子结构的一致性和流畅度,我将最后一段稍作调整如下:TAPIR은 데이터셋의 다단계 주석을 활용하여 기구 검출 작업에서 학습된 표현으로부터 이점을 얻어 분류 능력을 향상시킵니다. PSI-AVA와 다른 공개적으로 이용 가능한 데이터베이스에서 수행한 실험 결과는 우리 프레임워크가 미래의 전반적인 수술 장면 이해 연구를 촉진할 적합성을 입증하였습니다。 希望这能符合您的要求。如果有任何需要进一步调整的地方,请随时告知。