PEg TRAnsfer Workflow 인식 도전 보고서: 다중 모드 데이터가 인식을 개선하는가?

본 논문은 "PEg TRAnsfert Workflow recognition" (PETRAW) 챌린지의 설계 및 결과를 제시합니다. 이 챌린지의 목표는 비디오, 운동학적 데이터, 분할 데이터 중 하나 또는 여러 모달을 기반으로 수술 워크플로 인식 방법을 개발하여 그 추가 가치를 연구하는 것입니다. PETRAW 챌린지는 가상 시뮬레이터에서 수행된 150개의 핀 전송 시퀀스 데이터 세트를 제공했습니다. 이 데이터 세트는 비디오, 운동학, 의미 분할, 그리고 세 가지 다른 단위 수준인 위상(phase), 단계(step), 활동(activity)를 설명하는 워크플로 주석으로 구성되었습니다. 참가자들에게 제안된 다섯 가지 과제 중 세 가지는 사용 가능한 모달 중 하나를 이용한 모든 단위 수준의 인식과 관련되어 있었으며, 나머지 두 가지는 모달의 조합을 이용한 인식을 다루었습니다. 평균 응용 프로그램 종속 균형 정확도(AD-Accuracy)가 평가 지표로 사용되었는데, 이는 클래스 불균형을 고려하고 프레임별 점수보다 임상적으로 더 유의미하기 때문입니다. 일곱 개 팀이 적어도 한 과제에 참여했으며, 네 개 팀은 모든 과제에 참여했습니다. 네 개 팀이 모두 참여한 과제에서는 비디오와 운동학적 데이터를 사용한 방법이 AD-Accuracy 93%에서 90% 사이에서 가장 좋은 결과를 얻었습니다. 모든 팀에서 비디오/운동학적 방법과 단일 모달 방법 간의 개선이 유의미하게 나타났습니다. 그러나 비디오/운동학적 방법과 운동학적 방법 간의 테스트 실행 시간 차이는 고려해야 합니다. 3% 미만의 성능 개선을 위해 20배에서 200배까지 많은 계산 시간을 소비하는 것이 타당한가요? PETRAW 데이터 세트는 www.synapse.org/PETRAW에서 공개되어 있으며, 이를 통해 수술 워크플로 인식 분야에서 더 많은 연구가 이루어질 수 있도록 장려하고 있습니다.