초록

최근 텍스트-음악 생성 기술의 발전으로 모델들이 고품질의 음악 조각, 완성된 작품, 심지어는 코드 진행과 같은 미세한 제어 신호에 반응하는 것이 가능해졌습니다. 최신 기술(SOTA) 시스템들은 학습 데이터셋, 모델링 패러다임, 아키텍처 선택 등 여러 차원에서 크게 다릅니다. 이러한 다양성은 모델을 공정하게 평가하고 성능에 가장 큰 영향을 미치는 설계 선택을 특정하는 노력을 복잡하게 만듭니다. 데이터와 아키텍처 등의 요소가 중요하지만, 본 연구에서는 모델링 패러다임에만 집중합니다. 우리는 이를 분리하여 체계적으로 경험적 분석을 수행하여, 미래의 텍스트-음악 생성 시스템을 안내할 수 있는 관련 트레이드오프와 부상하는 행동 양식에 대한 통찰력을 제공합니다. 특히, 가장 일반적으로 사용되는 두 가지 모델링 패러다임인 자기회귀(autoregressive) 디코딩과 조건부 유동매칭(conditional flow-matching)을 비교합니다. 동일한 데이터셋, 학습 설정, 유사한 백본 아키텍처를 사용하여 모든 모델을 처음부터 학습시키는 방식으로 제어된 비교를 수행합니다. 성능은 생성 품질, 추론 설정에 대한 강건성, 확장성, 텍스트 및 시간적으로 정렬된 조건부 정보 준수 여부, 오디오 인페인팅 형태의 편집 기능 등 여러 축에서 평가됩니다. 이 비교 연구는 각 패러다임의 독특한 장점과 한계를 밝히며, 텍스트-음악 생성 분야의 진화하는 환경에서 미래의 아키텍처 및 학습 결정을 지도할 수 있는 실천 가능한 통찰력을 제공합니다. 샘플 오디오는 다음 링크에서 확인할 수 있습니다: https://huggingface.co/spaces/ortal1602/ARvsFM

소스 PDF 코드 보기