2달 전

Make-An-Audio 2: 시간 강화型 텍스트-오디오 생성

Jiawei Huang; Yi Ren; Rongjie Huang; Dongchao Yang; Zhenhui Ye; Chen Zhang; Jinglin Liu; Xiang Yin; Zejun Ma; Zhou Zhao
Make-An-Audio 2: 시간 강화型 텍스트-오디오 생성
초록

대형 확산 모델은 텍스트-오디오(T2A) 합성 작업에서 성공을 거두었지만, 제한된 자연어 이해와 데이터 부족으로 인해 의미적 불일치와 시간적 일관성 부족 등의 일반적인 문제를 겪곤 합니다. 또한, T2A 작업에서 널리 사용되는 2D 공간 구조는 시간 정보를 충분히 우선시하지 않기 때문에 가변 길이 오디오 샘플 생성 시 만족스러운 오디오 품질을 제공하지 못합니다. 이러한 도전 과제를 해결하기 위해, 우리는 Make-an-Audio의 성공을 바탕으로 한 잠재 확산 기반 T2A 방법론인 Make-an-Audio 2를 제안합니다. 우리의 접근 방식은 다음과 같은 여러 기술을 포함하여 의미적 일치性和时间一致性进行改进:首先,我们使用预训练的大规模语言模型(LLMs)将文本解析为结构化的<事件 & 顺序>对,以更好地捕捉时间信息。我们还引入了另一个结构化文本编码器,以帮助在扩散去噪过程中学习意义对齐。为了提高变长生成的性能并增强时间信息提取,我们设计了一个基于前馈Transformer的扩散去噪器。最后,我们利用大规模语言模型(LLMs)扩充和转换大量音频标签数据为音频-文本数据集,以缓解时间数据稀缺的问题。广泛的实验表明,我们的方法在客观和主观指标上均优于基线模型,并在时间信息理解、意义一致性以及音质方面取得了显著的提升。为了确保翻译符合韩语的表达习惯和正式性,以下是经过优化后的韩文翻译:대형 확산 모델은 텍스트-오디오(T2A) 합성 작업에서 성공적이었으나, 제한된 자연어 이해 능력과 데이터 부족으로 인해 의미적 불일치와 시간적 일관성 부족 등의 일반적인 문제가 발생합니다. 또한, T2A 작업에서 널리 사용되는 2D 공간 구조는 가변 길이 오디오 샘플을 생성할 때 시간 정보를 충분히 우선시하지 않아 오디오 품질이 만족스럽지 않습니다. 이러한 문제들을 해결하기 위해, 우리는 Make-an-Audio의 성공을 바탕으로 한 잠재 확산 기반 T2A 방법론인 Make-an-Audio 2를 제안합니다. 우리의 접근 방식은 다음과 같은 여러 기술을 포함하여 의미적 일치성과 시간적 일관성을 개선합니다:첫째, 사전 학습된 대규모 언어 모델(LLMs)을 사용하여 텍스트를 구조화된 <이벤트 & 순서> 쌍으로 분석하여 시간 정보를 더 잘 포착할 수 있도록 합니다.둘째, 확산 디노이징 과정에서 의미적 일치성을 학습하는 데 도움이 되는 또 다른 구조화된 텍스트 인코더를 도입합니다.셋째, 가변 길이 생성의 성능을 개선하고 시간 정보 추출을 강화하기 위해 피드포워드 트랜스포머 기반의 확산 디노이저를 설계하였습니다.마지막으로, 대규모 언어 모델(LLMs)을 활용하여 많은 양의 오디오-라벨 데이터를 오디오-텍스트 데이터셋으로 증강 및 변환하여 시간 데이터 부족 문제를 완화하였습니다.다양한 실험 결과에 따르면, 우리의 방법론은 객관적 및 주관적 지표 모두에서 기준 모델보다 우수하며, 시간 정보 이해력, 의미적 일관성 및 사운드 품질 면에서 상당한 개선 효과가 있음을 확인하였습니다.

Make-An-Audio 2: 시간 강화型 텍스트-오디오 생성 | 최신 연구 논문 | HyperAI초신경