Command Palette

Search for a command to run...

WeChat의 그레이스케일 테스트부터 Google/ByteDance/Xiaohongshu의 실패까지, AI 팟캐스트가 AIGC의 새로운 블루오션을 차지할 수 있을까?

Featured Image

평소 공개 계정을 자주 보는 친구들은 위챗에 얼마 전 새로운 기능인 "뉴스"가 출시된 것을 눈치채셨을 겁니다. 이 섹션에서는 사용자들이 일상 정보를 읽을 수 있을 뿐만 아니라, 남녀 두 명의 진행자가 대화 형식으로 진행하는 뉴스 팟캐스트를 청취할 수 있습니다. 팟캐스트에서는 최신 뉴스, 국제 뉴스 등 다양한 주제를 다룹니다. 더욱 흥미로운 점은팟캐스트 제목 아래에 "AI가 생성"이라는 단어가 명확하게 표시되어 있는데, 이는 WeChat이 AI 팟캐스트에 대한 흑백 테스트를 진행하고 있음을 보여줍니다.이러한 움직임은 텐센트 훈위안이 8월 5일에 AI 팟캐스트 기능을 공식 출시하고, 텐센트 클라우드 스마트 미디어가 9월 16일부터 17일까지 열린 텐센트 글로벌 디지털 생태계 대회에서 "AI 뉴스+AI 팟캐스트" 산업 솔루션을 공개적으로 선보인 소식과 일맥상통합니다.

최근 몇 년 동안 AI 기반 그래픽(Midjourney, Stable Diffusion 등)과 AI 기반 비디오(Veo3, Wan2.2 등)가 전 세계적으로 큰 인기를 얻고 있습니다. 이제 AI 팟캐스트가 또 다른 핫 트렌드로 떠오르고 있습니다. 대화형 텍스트 생성을 위한 대규모 언어 모델의 획기적인 발전과 고충실도 음성 합성 기술의 발전으로, 크리에이터 중심의 팟캐스트 형식 또한 AI의 영향을 받고 있습니다.

AI 팟캐스트가 '살아있는 느낌'을 주는 비결

소셜 미디어에서 고품질 팟캐스트에 대한 추천을 찾는다면, 연관 검색어에 "라이브 같은 팟캐스트"가 꼭 나올 겁니다.소위 '생동감'은 실제로 팟캐스트 대화를 통해 창작자가 자연스럽게 감정을 표현하는 것을 말합니다.말 사이의 멈춤과 망설임, 혹은 갑작스러운 웃음과 논쟁은 청취자들에게 진정으로 현재에 집중하게 만듭니다. 하지만 AI 팟캐스트라고 하면 휴대폰 음성 비서, 차량용 음성 비서, 스마트 홈 비서처럼 일상적인 스마트 음성 비서를 떠올릴 수 있습니다. AI 팟캐스트는 대체로 기계적인 특성을 지녀 선입견을 갖게 됩니다. 그래서 이런 의문이 제기됩니다. AI 팟캐스트가 정말 "실제 사람처럼 말"하여 사람들이 기계와 대화하고 있다는 사실을 잊게 할 수 있을까요? 이 질문에 답하기 전에 팟캐스트의 짧은 클립을 들어보겠습니다.

(AI가 생성한 오디오 콘텐츠)

두 진행자의 대화가 "칭찬과 놀림"의 암묵적인 반응으로 이어진다는 사실은, 사실 매우 "인간적"이라는 것을 발견하는 것은 어렵지 않습니다. 실제로 이 자료는 두바오가 클릭 한 번으로 생성한 AI 팟캐스트입니다. 더욱이 "생동감"을 얻는 효과는 더 이상 업계의 특별한 사례가 아닙니다. 기계적인 전자음에서 인간적인 발화로의 변화는,이들 모두는 동일한 주요 기술 계열, 즉 최신 신경망 텍스트-음성(TTS) 기술의 개발로 이익을 얻고 있습니다.

기존의 기계식 합성 및 스플라이싱 TTS 기술과는 달리,최신 TTS는 딥 러닝 모델을 사용하여 음성의 억양, 음색, 말하는 속도, 감정, 스타일 등 다차원적 특징을 더 잘 포착하여 더 자연스럽고 유창하며 표현력이 풍부한 음성을 생성합니다.이를 바탕으로 적대적 학습, 대규모 언어 모델을 기반으로 한 음성 모델링, 다중 모드 조건 제어와 같은 기술이 추가되면서 모델이 생성한 음성을 인간의 음성과 구별하기가 점점 더 어려워졌습니다.

예를 들어, 마이크로소프트는 올해 8월 새로운 TTS 모델인 VibeVoice-1.5B를 출시했습니다. 혁신적인 연속 음성 토큰화 기술과 차세대 토큰 분할 확산 프레임워크를 대규모 언어 모델과 결합하여 긴 시퀀스 오디오를 효율적으로 처리할 수 있는 역량을 확보했습니다.

온라인 튜토리얼 링크:https://go.hyper.ai/6ruF7

미안비 인텔리전스와 칭화대학교 선전 국제대학원은 0.5B 매개변수 음성 생성 모델인 VoxCPM을 공동 개발했습니다. 이 모델은 종단간 확산 자기회귀 아키텍처를 활용하여 텍스트에서 직접 연속적인 음성 표현을 생성함으로써 기존 이산 단어 분할의 한계를 극복합니다. 이 모델은 음성 합성에서 놀라운 수준의 자연스러움, 음색 유사성, 그리고 리듬 표현력을 구현합니다.

온라인 튜토리얼 링크:https://go.hyper.ai/frmze

빌리빌리 보이스(Bilibili Voice) 팀이 개발한 IndexTTS-2는 새롭고 보편적이며 자기회귀 모델 친화적인 음성 지속 시간 제어 방법을 제안합니다. 이는 정밀한 지속 시간 제어를 지원하는 최초의 자기회귀 TTS 모델입니다.

온라인 튜토리얼 링크:https://go.hyper.ai/z7Jdt

HyperAI 공식 웹사이트(hyper.ai)의 "튜토리얼" 섹션에서 고품질 오픈소스 TTS 모델을 위한 원클릭 배포 튜토리얼을 다수 공개했습니다. 직접 방문하여 체험해 보세요.

현재 AI 팟캐스트 생태계: 두 가지 유형의 플레이어와 여러 트랙

응용 측면에서 앞서 언급한 기술들은 점차 대중의 관심을 받고 있습니다. 현재 시중에 나와 있는 AI 팟캐스트 제품은 그 배경에 따라 두 가지 유형으로 나눌 수 있습니다.

한편, 대형 기업의 참여로 AI 팟캐스트 트랙에 의심할 여지 없이 활력이 더해졌고 해당 분야에 대한 관심이 빠르게 높아졌습니다.그 중에서도 가장 먼저 나온 제품은 구글의 NoteBookLM으로, 매우 요약된 오디오 개요로 유명합니다.사용자가 정보를 빠르게 소화할 수 있도록 설계된 강력한 오디오 기능은 AI 팟캐스트를 위한 효율적인 도구이기도 합니다. 최근 최적화를 통해 이제 중국어를 포함한 50개 이상의 언어를 지원하여 이전에 영어만 사용 가능했던 문제를 해결했습니다.ByteDance가 출시한 Doubao는 Volcano Engine의 대규모 모델 기능을 활용하여 한 번의 클릭으로 팟캐스트 콘텐츠를 생성합니다.엔드투엔드 언어 대화는 "듣고, 이해하고, 대답하는 것을 동시에 하는 것"으로 이해될 수 있습니다. 그 자연스러움과 질감은 중국 AI 팟캐스트 중 최고 수준입니다. 또한,샤오홍슈 오디오 팀은 최근 대화 생성 모델인 FireRedTTS-2도 출시했습니다.관련 논문은 "FireRedTTS-2: 팟캐스트와 챗봇을 위한 긴 대화형 음성 생성을 향해"라는 제목으로 arXiv에 게재되었습니다.

반면, 스타트업 팀은 다양한 혁신 역량을 보여줍니다.대표적인 제품으로는 "모두를 위한 AI 라디오 방송국"을 표방하며 모든 팟캐스트 프로그램을 AI로 생성하는 Laifu Radio, 먀오야 카메라(MiaoYa Camera) 창립자 장웨광(Zhang Yueguang)과 그의 팀이 출시한 ChatPods가 있습니다. ChatPods는 AI를 활용하여 음성을 추출하고 개인 맞춤형 팟캐스트를 추천하는 개인 "AI 팟캐스트 에이전트"에 중점을 둡니다. 또한, 전 NotebookLM 팀원들이 개발한 "Huxe" 역시 AI를 통해 편리하고 개인화된 콘텐츠 제작에 전념하고 있습니다. DeepCasts 기능은 사용자만을 위한 AI 팟캐스트를 즉시 생성하여 언제 어디서나 맞춤형 지식 습득을 가능하게 합니다.

결론

위에서 언급한 팟캐스트 콘텐츠 제작과 대화형 포맷의 혁신 외에도, AI가 팟캐스트 분야를 강화하면서 창작 과정의 더 많은 연결 고리가 생겨났습니다.

9월 16일에 열린 "Made on YouTube" 이벤트에서 YouTube CEO인 Neal Mohan은 일련의 새로운 AI 도구를 발표했습니다.가장 흥미로운 것 중 하나는 팟캐스트 제작자를 위해 특별히 설계된 오디오-비디오 AI 생성 도구로, 팟캐스트 제작자가 팟캐스트 비디오 슬라이스를 쉽게 제작하는 데 도움이 됩니다.


YouTube에서 제작한 이벤트 영상 스크린샷

이 툴의 출시는 실제로 팟캐스트 분야에 AI 기술이 깊이 침투하고 있는 현재의 모습을 축소한 것입니다.창작자의 관점에서 보면,AI 팟캐스트의 등장으로 콘텐츠 제작의 문턱이 크게 낮아졌습니다. AI 팟캐스트는 대본 최적화뿐만 아니라 편집, 추천, 배포까지 지원하여 개인 크리에이터는 물론 소규모 팀도 고품질 프로그램을 빠르게 제작할 수 있도록 지원합니다.사용자 관점에서 보면,AI는 더욱 지능적인 콘텐츠 추천을 제공하여 청취자가 자신에게 맞는 팟캐스트 콘텐츠를 더욱 효율적으로 얻을 수 있게 하고, 음성 지원 기능을 통해 더욱 몰입적인 청취 환경을 구현할 수도 있습니다.

전반적인,AI 팟캐스트가 번창하고 있는 이유는 팟캐스트 분야가 지닌 잠재적인 상업적 가치 때문입니다."2024 팟캐스트 산업 보고서"에 따르면, 설문 조사에 참여한 사용자의 45.91%가 지난 1년 동안 유료 팟캐스트를 구매했으며, 63.61%는 팟캐스트 광고에 관심이 있는 것으로 나타났습니다. 라이프스타일과 소비 습관의 변화로 인해 팟캐스트 공간은 더 이상 예전처럼 "작고 아름다운" 틈새 시장이 아닐 수 있습니다. 팟캐스트의 잠재력은 아직 개발되지 않았으며, 기존 팟캐스트 산업이 직면한 수익화 과제는 AI의 도움으로 새로운 해결책을 찾을 수 있을 것입니다. 생산성 향상이든, 더 만족스러운 사용자 경험이든, 팟캐스트 산업의 미래는 희망으로 가득합니다.

참조 링크:
1.https://mp.weixin.qq.com/s/WH60YKbhAEf51si4mlZoNQ
2.https://asmp-eurasipjournals.springeropen.com/articles/10.1186/s13636-024-00329-7
3.https://mp.weixin.qq.com/s/XFK59UJu9appRpHmtsIjeg
4.https://techcrunch.com/2025/09/23/former-notebooklm-devs-new-app-huxe-taps-audio-to-help-you-with-news-and-research/
5.https://www.huxe.com/blog
6.http://www.news.cn/fortune/20250407/669ffc4208b24ce895c9b560b05ff6a0/c.html

WeChat의 그레이스케일 테스트부터 Google/ByteDance/Xiaohongshu의 실패까지, AI 팟캐스트가 AIGC의 새로운 블루오션을 차지할 수 있을까? | 뉴스 | HyperAI초신경