구글 마젠타, 실시간 AI 음악 생성 모델 출시
구글 연구진이 실시간 AI 음악 생성을 위한 오픈 웨이트 모델 '매그나타 리얼타임' 발표 구글의 매그나타 팀은 실시간 AI 음악 생성 모델인 '매그나타 리얼타임(Magenta RealTime, Magenta RT)'을 발표했습니다. 이 모델은 Apache 2.0 라이선스 하에 오픈 소스로 배포되어 GitHub와 Hugging Face에서 사용할 수 있으며, 사용자가 직접 스타일 프롬프트를 제어하여 실시간으로 음악을 생성할 수 있는 첫 번째 대규모 모델입니다. 배경: 실시간 음악 생성 실시간 제어와 생생한 상호작용은 음악 창작의 기반이 되는 요소입니다. 과거 매그나타 프로젝트인 '피아노 지니(Piano Genie)'와 'DDSP'는 표현력과 신호 모델링에 중점을 두었지만, 매그나타 RT는 이를 전방위 오디오 합성까지 확장합니다. 이 모델은 즉시 피드백과 동적인 음악 변화를 가능하게 함으로써, 생성 모델과 사람 중심의 작곡 사이의 간극을 해소합니다. 기술 개요 매그나타 RT는 이산 오디오 토큰을 기반으로 하는 트랜스포머 언어 모델입니다. 이 토큰은 48kHz 스테레오 품질을 제공하는 신경망 오디오 코덱을 통해 생성됩니다. 모델은 8억 개의 파라미터로 구성된 트랜스포머 아키텍처를 사용하며, 다음과 같은 목표를 달성하기 위해 최적화되었습니다: 고품질 오디오 생성: 48kHz 스테레오 품질의 오디오를 생성합니다. 저지연 실시간 추론: 무료 계층의 Colab TPU에서도 실시간보다 빠른 추론 속도를 지원합니다. 다이나믹한 사용자 제어: 장르, 악기, 스타일적 변화를 실시간으로 제어할 수 있습니다. 이를 위해 매그나타 RT는 MusicLM의 단계별 학습 파이프라인을 적응시키고, MusicCoCa라는 새로운 음악-텍스트 임베딩 모듈을 통합했습니다. MusicCoCa는 MuLan과 CoCa의 하이브리드 형태로, 장르, 악기, 스타일적 진행을 의미적으로 제어할 수 있게 합니다. 데이터와 학습 매그나타 RT는 약 19만 시간 분량의 인스트루멘털 주식 음악 데이터셋으로 학습되었습니다. 이 큰 규모의 다양성 있는 데이터셋은 다양한 장르에 대한 일반화 능력과 부드러운 음악적 맥락 적응을 보장합니다. 학습 데이터는 계층적 코덱을 통해 토크나이징되어, 품질을 잃지 않으면서도 효율적인 표현을 가능하게 합니다. 각 2초짜리 세그먼트는 사용자가 지정한 프롬프트뿐만 아니라 이전 10초간의 오디오 컨텍스트를 바탕으로 조건부 생성이 이루어져, 부드럽고 일관된 진행을 가능하게 합니다. 모델의 입력 모드 매그나타 RT는 다음 두 가지 입력 모드를 지원합니다: 텍스트 프롬프트: 사용자가 원하는 장르, 악기, 스타일 등을 텍스트로 입력할 수 있습니다. 오디오 프롬프트: 사용자가 원하는 음악 조각을 제공하여, 해당 스타일을 추론할 수 있습니다. 이 두 모드의 융합은 실시간 장르 변환이나 동적인 악기 혼합과 같은 기능을 가능하게 하며, 라이브 작곡이나 DJ처럼 연주하는 상황에서 특히 유용합니다. 성능과 추론 매그나타 RT는 8억 개의 파라미터를 가지고 있지만, 2초당 1.25초의 생성 속도(RTF 약 0.625)를 달성해 실시간 사용이 가능합니다. 이는 무료 계층의 Colab TPU에서도 실행할 수 있으며, XLA 컴파일, 캐싱, 하드웨어 스케줄링 등의 최적화를 통해 지연을 최소화합니다. 생성 과정은 연속 스트리밍을 위해 분할되어, 각 2초 세그먼트가 순차적으로 합성되며, 중첩된 윈도우를 통해 일관성을 유지합니다. 응용 및 사용 사례 매그나타 RT는 다음과 같은 응용 분야에 통합될 수 있도록 설계되었습니다: 음악 소프트웨어 플러그인: 실시간으로 음악을 생성하고 변환할 수 있는 플러그인으로 활용됩니다. 라이브 퍼포먼스 도구: DJ나 라이브 연주자들이 즉석에서 음악을 변형하고 조정할 수 있는 도구로 활용됩니다. 교육용 응용 프로그램: 음악 학습 및 교육에 사용될 수 있습니다. 구글은 향후 모델의 디바이스 내 추론 및 개인화 학습 지원을 예고하며, 크리에이터들이 자신만의 독특한 스타일에 맞게 모델을 조정할 수 있도록 할 계획입니다. 평가 및 회사 프로필 매그나타 RT는 고해상도 합성과 다이나믹한 사용자 제어를 결합함으로써 AI 기반 음악 생성의 새로운 가능성을 열었습니다. 구글의 이 모델은 현재 시장에 나와 있는 다른 모델들(예: Riffusion, Jukebox)과 달리 코덱 토큰 예측에 중점을 두어 최소한의 지연 시간을 제공합니다. 또한 MusicGen이나 MusicLM과 비교해도 매그나타 RT는 더 낮은 지연 시간과 실시간 생성 기능을 제공하며, 전체 트랙 생성을 미리 수행해야 하는 현재의 프롬프트-오디오 파이프라인에서 벗어났습니다. 연구자, 개발자, 음악가 모두에게 매그나타 RT는 반응형이고 협업적인 AI 음악 시스템을 향한 중요한 발걸음입니다. 모델은 Hugging Face, GitHub 페이지, 기술 세부 정보, Colab 노트북에서 확인할 수 있으며, 이 연구에 대한 모든 공로는 해당 프로젝트의 연구진들에게 돌아갑니다. 또한 Twitter를 팔로우하고 100,000명 이상의 ML 서브레딧에 가입하거나 구독을 통해 업데이트를 받아보세요. 무료 등록: miniCON AI 인프라 2025 (2025년 8월 2일) [연사: Cerebras의 제품 관리 부사장 Jessica Liu, US FDA의 AI 디렉터 Andreas Schick, IBM의 AI 인프라 부사장 Volkmar Uhlig, Amazon의 월드와이드 파트너 솔루션 아키텍트 Daniele Stroppa, Meta의 머신 러닝 담당 Aditya Gautam, Google Cloud AI의 연구 매니저 Sercan Arik, Altos Labs의 AI/ML 수석 디렉터 Valentina Pedoia, Broadcom의 소프트웨어 엔지니어링 매니저 Sandeep Kaipu]