12일 전
데이터와 트랜스포머의 통제: 오디오 생성을 위한 접근
Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Vicente Ordonez

초록
환경 음향 생성기의 확장성은 데이터 부족, 캡션 품질 부족, 모델 아키텍처의 제한된 확장성 등의 문제로 인해 저해되고 있다. 본 연구는 데이터 및 모델 확장 측면에서 이러한 도전 과제를 해결하기 위해 노력한다. 먼저, 환경 음향 생성에 특화된 효율적이고 확장 가능한 데이터셋 수집 파이프라인을 제안하며, 이로 인해 4700만 개 이상의 음성 클립을 포함한 가장 큰 환경 음성-텍스트 데이터셋인 AutoReCap-XL을 구축하였다. 고품질 텍스트 주석을 제공하기 위해, 고품질 자동 음성 캡셔닝 모델인 AutoCap을 제안한다. Q-Former 모듈을 도입하고 음성 메타데이터를 활용함으로써 AutoCap은 캡션 품질을 크게 향상시켜 CIDEr 점수 83.2를 기록하며 기존 캡셔닝 모델 대비 3.2% 향상되었다. 마지막으로, 확장 가능한 트랜스포머 기반 음성 생성 아키텍처인 GenAu를 제안하며, 이를 총 12.5억 파라미터로 확장하였다. 합성 캡션을 활용한 데이터 확장과 모델 크기 확장의 이점을 실험적으로 입증하였다. 유사한 크기와 데이터 규모로 학습된 기준 모델과 비교했을 때, GenAu는 FAD 점수에서 4.7%, IS에서 11.1%, CLAP 점수에서 13.5%의 유의미한 성능 향상을 달성하였다. 본 연구의 코드, 모델 체크포인트 및 데이터셋은 공개되어 있다.