
초록
이 논문은 엔드투엔드 방식으로 훈련되는 합성곱 신경망(Convolutional Neural Network, CNN)과 양방향 장단기 기억층(Bidirectional Long Short-Term Memory, BiLSTM)을 결합한 새로운 하이브리드 아키텍처를 제안한다. 본 연구는 특히 자원이 극도로 제한된 환경에서 실제 환경(인-더-와일드, in-the-wild)의 어려운 노이즈 조건에서도 강건한 성능을 제공할 수 있도록 아키텍처의 계산 효율성을 최적화하는 데 집중한다. 하이퍼파라미터 공간 탐색을 위해 중첩 k-겹 교차검증(Nested k-fold cross-validation)을 활용하였으며, 최적의 파라미터와 모델 크기 사이의 트레이드오프에 대해 논의한다. 또한, 양방향 LSTM 레이어와 단방향 LSTM 레이어 간의 성능 차이를 비교 분석하였다. 제안한 시스템은 AVA-Speech 데이터셋에서 세 가지 기존 베이스라인과 비교하여 평가되었으며, 최적의 파라미터로 훈련된 더 큰 모델과 비교해도, 거의 최적의 성능을 달성하면서도 훨씬 작은 크기의 모델이 동일한 수준의 성능을 보임을 확인하였다. BiLSTM 레이어는 단방향 레이어 대비 평균적으로 약 2%의 절대 정확도 향상을 보였다. 특히 어려운 노이즈 조건에서 뛰어난 성능을 발휘하며, AUC(Area Under the Curve)가 0.951에 달하는 성과를 기록하여, 훨씬 더 큰 크기의 ResNet 기반 시스템을 포함한 모든 베이스라인을 초월하였다.