
초록
우리는 음성 분류 및 인식 모델의 훈련 데이터 증강을 위해 음성의 중요하지 않은 영역에만 잡음을 추가하고 중요한 영역에는 추가하지 않는 기법인 ImportantAug를 제안한다. 각 발화에 대한 중요도는, 인식 성능에 미치는 영향을 최소화하면서 추가할 수 있는 잡음의 양을 최대화하도록 훈련된 데이터 증강 에이전트를 통해 예측한다. 본 방법의 효과는 구글 음성 명령(Google Speech Commands, GSC) 데이터셋 버전 2에서 입증되었다. 표준 GSC 테스트 세트에서 기존의 잡음 증강 기법(음성의 중요도를 고려하지 않고 잡음을 무분별하게 추가하는 방식)에 비해 상대 오류율을 23.3% 감소시켰으며, 데이터 증강이 전혀 적용되지 않은 베이스라인에 비해서는 25.4%의 오류율 감소를 기록했다. 또한, 추가적인 잡음이 포함된 두 개의 테스트 세트에서도 ImportantAug는 기존의 잡음 증강 기법과 베이스라인을 모두 상회하는 성능을 보였다.