15일 전

호흡음 분류에 대한 오디오 스펙트로그램 트랜스포머를 활용한 패치-믹스 대비 학습

Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun
호흡음 분류에 대한 오디오 스펙트로그램 트랜스포머를 활용한 패치-믹스 대비 학습
초록

호흡 음은 치명적인 폐 질환의 조기 진단에 중요한 정보를 담고 있다. 코로나19 팬데믹 이후 전자 스테스코프 기반의 비접촉 의료에 대한 관심이 증가하고 있다. 이를 위해 최신의 딥러닝 모델이 폐 질환 진단을 위해 개발되었으나, 의료 데이터의 부족으로 인해 여전히 도전 과제가 있다. 본 연구에서는 대규모 시각 및 음성 데이터셋으로 사전 학습된 모델이 호흡 음 분류 작업에 일반화될 수 있음을 입증한다. 또한, 오디오 스펙트로그램 트랜스포머(AST)와 함께 사용할 수 있는 간단한 Patch-Mix 증강 기법을 제안하며, 이는 서로 다른 샘플 간의 패치를 무작위로 혼합하는 방식이다. 더불어 잠재 공간 내에서 혼합된 표현을 구분할 수 있도록 새로운 효과적인 Patch-Mix 대비 학습 기법을 제안한다. 제안한 방법은 ICBHI 데이터셋에서 최고 성능을 기록하며, 기존 최고 성능 대비 4.08% 향상된 결과를 달성하였다.

호흡음 분류에 대한 오디오 스펙트로그램 트랜스포머를 활용한 패치-믹스 대비 학습 | 최신 연구 논문 | HyperAI초신경