17일 전

G-Augment: ASR를 위한 데이터 증강 정책의 메타구조 탐색

Gary Wang, Ekin D.Cubuk, Andrew Rosenberg, Shuyang Cheng, Ron J. Weiss, Bhuvana Ramabhadran, Pedro J. Moreno, Quoc V. Le, Daniel S. Park
G-Augment: ASR를 위한 데이터 증강 정책의 메타구조 탐색
초록

데이터 증강은 자동 음성 인식(ASR) 학습에 대한 강건성을 제공하는 흔한 기법이다. 그러나 ASR 학습 과정의 많은 부분이 자동화되고 더욱 ‘엔드 투 엔드’ 방식으로 진화함에도 불구하고, 데이터 증강 정책(어떤 증강 함수를 사용할지, 그리고 어떻게 적용할지)은 여전히 수작업으로 설계된다. 본 연구에서는 증강 공간을 방향성 비순환 그래프(DAG)로 정의하고, 이 공간을 탐색함으로써 증강 정책 자체를 최적화하는 Graph-Augment 기법을 제안한다. 동일한 계산 자원 예산 하에서, G-Augment가 생성한 정책은 CHiME-6 및 AMI 데이터셋에서 미세 조정 작업에서 무작위 탐색으로 얻은 SpecAugment 정책보다 더 우수한 성능을 발휘함을 보였다. 또한 G-Augment는 CHiME-6 평가 세트에서 새로운 최고 성능을 기록하며, 30.7%의 WER를 달성했다. 더 나아가, G-Augment 정책은 무작위 탐색을 통해 얻은 SpecAugment 정책보다 온도 조절(워밍스타트)에서 냉동스타트, 모델 크기 변화에 걸쳐 더 우수한 전이 성능을 보임을 입증하였다.

G-Augment: ASR를 위한 데이터 증강 정책의 메타구조 탐색 | 최신 연구 논문 | HyperAI초신경