AUCO ResNet: 기침과 호흡을 통한 코로나19 사전 선별을 위한 엔드투엔드 네트워크
이 연구는 청각 피질 기반의 깊은 신경망인 Auditory Cortex ResNet(AUCO ResNet)을 제안한다. 이 모델은 음성 분류, 특히 기침과 숨소리의 오디오 트랙을 이용한 코로나19 진단에 특화된 생물학적으로 영감을 받은 깊은 신경망이다. 기존의 다른 접근 방식들과 달리, AUCO ResNet은 엔드 투 엔드(end-to-end)로 훈련이 가능하여 메르-유사 필터 설계, 특징 추출, 특징 선택, 차원 축소, 예측 등 학습 알고리즘의 모든 모듈을 경사 하강법(gradient descent)을 통해 최적화할 수 있다. 이 신경망은 세 가지 주목할 만한 주의 메커니즘(attention mechanism)을 포함한다. 즉, 스쿼즈 앤 익사이테이션(Squeeze and Excitation) 메커니즘, 컨볼루션 블록 주의 모듈(Convolutional Block Attention Module), 그리고 새로 제안된 사인파 형태의 학습 가능한 주의 메커니즘이다. 이러한 주의 메커니즘은 신경망의 다양한 계층에서 생성된 활성화 맵(activation maps)에서 관련 정보를 효과적으로 통합할 수 있다. AUCO ResNet은 원시 오디오 파일(raw audio files)을 입력으로 받아, 특징 추출 단계까지도 미세 조정(fine-tune)이 가능하다. 실제로 훈련 과정 중에 메르-유사 필터(Mel-like filter)가 설계되며, 중요한 주파수 대역에 맞춰 필터 범주(filter banks)가 자동으로 적응된다. AUCO ResNet은 다양한 데이터셋에서 최첨단 성능을 입증하였다. 우선, 코로나19 기침 및 숨소리 데이터를 포함한 여러 데이터셋에서 테스트가 수행되었는데, 이는 기침과 숨소리가 언어에 의존하지 않기 때문에 다양한 데이터셋 간의 일반화 목적의 교차 테스트가 가능하다는 점에서 선택된 것이다. 이러한 실험 결과는 본 접근법이 저비용, 빠르고 원격으로 코로나19 사전 선별에 활용될 수 있음을 보여준다. 또한, 유명한 UrbanSound 8K 데이터셋에서도 테스트되었으며, 데이터 전처리나 데이터 증강(data augmentation) 기법 없이도 최첨단 정확도를 달성하였다.