스테이빌리티 AI, 모바일 기기용 소형 텍스트-음성 변환 모델 출시
Stability AI와 Arm이 스마트폰에서 실행할 수 있는 컴팩트한 텍스트-오디오 모델을 출시했습니다. 이 모델은 'Stable Audio Open Small'로 명명되었으며, 최대 11초 길이의 스테레오 오디오 클립을 약 7초 만에 생성할 수 있습니다. 고성능 하드웨어인 Nvidia H100 GPU에서는 44kHz 스테레오 오디오를 단 75밀리초만에 생성할 수 있어 실시간 생성에 거의 가깝습니다. Stable Audio Open은 작년에 11억 개의 매개변수를 가진 무료 오픈 소스 모델로 처음 출시되었습니다. 이번에 출시된 더 작은 버전은 3억 4100만 개의 매개변수만 사용하여 소비자용 하드웨어에서 실행하기가 훨씬 쉽습니다. Stability AI와 Arm은 올해 3월에 협력을 처음 발표했습니다. 모바일 하드웨어를 위한 설계 스마트폰에서 이 모델을 실행하기 위해 팀은 아키텍처를 전체적으로 재구성했습니다. 시스템은 이제 세 가지 구성 요소로 이루어져 있습니다: 오디오 데이터를 압축하는 오토인코더, 텍스트 프롬프트를 해석하는 임베딩 모듈, 그리고 최종 오디오를 생성하는 디퓨전 모델입니다. 이 새로운 구조는 디스틸레이션에 의존하지 않지만, 메모리 사용량을 거의 절반으로 줄였습니다(6.5GB에서 3.6GB). 이 덕분에 모델을 처음으로 모바일 기기에서 실행할 수 있게 되었습니다. 연구팀은 RAM 12GB와 Mediatek Dimensity 9400 칩을 탑재한 2024년 말 출시된 Android 폰인 Vivo X200 Pro에서 테스트를 진행했습니다. 사운드 효과에 최적화 Stability AI는 이 모델이 특히 사운드 효과와 현장 녹음을 생성하는 데 우수하다고 밝혔습니다. 그러나 음악, 특히 노래 목소리에는 아직 어려움을 겪으며, 영어 프롬프트에서 가장 잘 작동합니다. 모델은 CC0, CC-BY, 또는 CC-Sampling+ 라이선스로 배포된 Freesound 데이터베이스의 약 47만 2000개 클립을 사용하여 훈련되었습니다. 저작권 문제를 피하기 위해 자동 검사 시스템을 통해 데이터를 필터링했습니다. 소프트웨어는 Stability AI 커뮤니티 라이선스 하에 오픈 소스로 이용할 수 있으며, 상업적인 용도로 사용하려면 별도의 조건을 따르야 합니다. 코드는 GitHub에서, 모델 가중치는 Hugging Face에서 접근할 수 있습니다. 업계 인사이더의 평가 Stable Audio Open Small의 출시는 텍스트-오디오 변환 기술의 접근성을 크게 높이는 중요한 단계입니다. 이 모델은 메모리 사용량을 크게 줄이고, 모바일 기기에서도 실행 가능하도록 설계되어 다양한 응용 분야에서 활용될 전망입니다. Stability AI는 인공지능 기술의 민주화에 앞장서고 있으며, Arm과의 협력은 이러한 목표를 더욱 강화하고 있습니다. 두 회사는 앞으로도 지속적인 혁신을 추구할 것으로 보입니다.