17일 전
G-Augment: ASR를 위한 데이터 증강 정책의 메타구조 탐색
Gary Wang, Ekin D.Cubuk, Andrew Rosenberg, Shuyang Cheng, Ron J. Weiss, Bhuvana Ramabhadran, Pedro J. Moreno, Quoc V. Le, Daniel S. Park

초록
데이터 증강은 자동 음성 인식(ASR) 학습에 대한 강건성을 제공하는 흔한 기법이다. 그러나 ASR 학습 과정의 많은 부분이 자동화되고 더욱 ‘엔드 투 엔드’ 방식으로 진화함에도 불구하고, 데이터 증강 정책(어떤 증강 함수를 사용할지, 그리고 어떻게 적용할지)은 여전히 수작업으로 설계된다. 본 연구에서는 증강 공간을 방향성 비순환 그래프(DAG)로 정의하고, 이 공간을 탐색함으로써 증강 정책 자체를 최적화하는 Graph-Augment 기법을 제안한다. 동일한 계산 자원 예산 하에서, G-Augment가 생성한 정책은 CHiME-6 및 AMI 데이터셋에서 미세 조정 작업에서 무작위 탐색으로 얻은 SpecAugment 정책보다 더 우수한 성능을 발휘함을 보였다. 또한 G-Augment는 CHiME-6 평가 세트에서 새로운 최고 성능을 기록하며, 30.7%의 WER를 달성했다. 더 나아가, G-Augment 정책은 무작위 탐색을 통해 얻은 SpecAugment 정책보다 온도 조절(워밍스타트)에서 냉동스타트, 모델 크기 변화에 걸쳐 더 우수한 전이 성능을 보임을 입증하였다.