비디오를 이용한 통증 평가: 다차원 측정값에서 확장된 다중 작업 학습을 통한 접근

이전의 얼굴 표정을 통한 자동 통증 감지 연구는 주로 특정 얼굴 근육 활동에 기반한 프레임 단위 통증 지표, 예를 들어 Prkachin과 Solomon 통증 강도(PSPI)에 초점을 맞추어 왔다. 그러나 현재의 통증 평가 기준은 환자가 자가 보고하는 시각적 혼동 척도(VAS)로, 이는 비디오 단위의 측정치이다. 본 연구에서는 비디오로부터 직접 VAS를 예측할 수 있는 다중 작업 다차원 통증 모델을 제안한다. 제안하는 모델은 세 단계로 구성된다. (1) 프레임 단위 PSPI를 예측하도록 훈련된 VGGFace 신경망 모델로, 다중 작업 학습을 적용하여 PSPI와 함께 개별 얼굴 행동 단위(AUs)도 동시에 예측함으로써 PSPI 학습의 정확도를 향상시킨다. (2) 프레임 단위 PSPI 예측 결과를 기반으로 시퀀스 단위 통증 점수를 추정하기 위한 완전 연결 신경망으로, 다시 한번 다중 작업 학습을 통해 VAS만이 아니라 다차원 통증 척도를 함께 학습한다. (3) 다차원 통증 예측 결과를 최적의 선형 조합을 통해 종합하여 최종 VAS 추정치를 도출한다. UNBC-McMaster 어깨 통증 데이터셋에서 본 모델이 평균 절대 오차(MAE) 1.95, 내부 일치 계수(ICC) 0.43의 최신 기술 수준 성능을 달성함을 보였다. 비록 데이터셋 제공 시 인간 평가자들의 예측 성능보다는 여전히 낮지만, 본 모델의 예측값과 인간 평가자의 예측값을 평균화하면, 인간 평가자의 MAE를 1.76에서 1.58로 개선할 수 있었다. UNBC-McMaster 데이터셋으로 훈련된 본 모델은 복강경 절제술 후 신체 검사 동안 촬영된 별도의 얼굴 영상 데이터셋에 대해 추가 훈련 없이 직접 적용되었을 때, 기존의 방법보다 ROC 곡선 아래 면적(AUC) 측정 기준에서 6% 향상된 성능을 보였다.