
음성 강화는 소음 환경에서 음성의 품질과 이해도를 향상시키는 것을 목표로 한다. 최근의 기술 발전은 특히 두 단계(Two-Stage, TS) 아키텍처를 활용하여 특징 추출을 개선하는 깊은 신경망에 집중해왔다. 그러나 이러한 모델의 복잡성과 크기가 여전히 크기 때문에 자원 제약 환경에서의 적용 가능성이 제한된다. 엣지 디바이스에 적합한 모델 설계는 자체적으로 도전 과제를 안고 있다. 좁은 경량 모델은 일반적으로 손실 경관의 비균형으로 인해 성능 저하를 겪는다. 또한, 트랜스포머나 Mamba와 같은 고급 연산자들은 실제 적용 환경에서 컨볼루션 신경망(Convolutional Neural Networks, CNN)이 제공하는 실용성과 효율성에 비해 떨어지는 경우가 많다. 이러한 문제를 해결하기 위해, 본 연구는 혁신적인 초경량 음성 강화 네트워크인 Dense-TSNet을 제안한다. 제안하는 방법은 기존의 두 단계 아키텍처와 비교해 후반 학습 단계에서 목표 함수의 보다 강력한 개선을 보장하는 새로운 밀집형 두 단계(Dense-TS) 아키텍처를 사용한다. 이는 기존 모델의 조기 수렴 문제를 해결하고 최종 성능을 향상시킨다. 또한, 컨볼루션 신경망(CNN)을 활용해 전역적, 채널적, 국소적 관점을 통합하는 다중 시점 주의 블록(Multi-View Gaze Block, MVGB)을 도입하여 특징 추출 성능을 향상시켰다. 더불어, 손실 함수의 선택이 청각적 품질에 미치는 영향에 대해서도 논의한다. Dense-TSNet은 약 14K개의 파라미터로 매우 컴팩트한 모델 크기를 가지며, 자원이 제한된 환경에서의 배포에 특히 적합함을 보여주었다.