Command Palette
Search for a command to run...
WeChat のグレースケールテストから Google/ByteDance/Xiaohongshu の失敗まで、AI ポッドキャストは AIGC の新たなブルーオーシャンを獲得できるでしょうか?

普段から公式アカウントをよく読んでいる方は、WeChatが少し前に新機能「ニュース」を導入したことに気づいているかもしれません。このセクションでは、日々の情報を読むだけでなく、男女2人の司会者が対談形式で、話題のニュースや国際ニュースなどを取り上げるニュースポッドキャストを聴くことができます。さらに興味深いのは、ポッドキャストのタイトルの下に「AI生成」という文字が明記されており、WeChatがAIポッドキャストのグレースケールテストを実施していることがわかる。この動きは、テンセント・フンユエンが8月5日にAIポッドキャスト機能を正式に開始したというニュースや、テンセント・クラウド・スマートメディアが9月16日から17日までテンセント・グローバル・デジタル・エコシステム・カンファレンスで公開した「AIニュース+AIポッドキャスト」業界ソリューションと呼応している。

近年、AIを活用したグラフィック(MidjourneyやStable Diffusionなど)や動画(Veo3やWan2.2など)が世界的なセンセーションを巻き起こしています。そして今、AIポッドキャスティングが新たなホットなトレンドとして台頭しています。会話文を生成するための大規模言語モデルの飛躍的進歩と、高忠実度音声合成技術の成熟により、クリエイターへの依存度が高いポッドキャスティングもAIの影響を受けています。
AIポッドキャストが「生き生き感」を実現する秘密
ソーシャル メディアで高品質のポッドキャストのおすすめを探すと、関連する検索語の中に「ライブ風ポッドキャスト」が必ず見つかります。いわゆる「生き生き感」とは、実際にはポッドキャストの会話を通じてクリエイターが表現する自然な感情のことです。言葉と言葉の間の沈黙やためらい、あるいは突然の笑い声や議論こそが、リスナーに真の臨場感を与えるのです。しかし、AIポッドキャストというと、携帯電話の音声アシスタント、車載音声アシスタント、スマートホームアシスタントといった、日常的に使われているスマート音声アシスタントを思い浮かべる人が多いかもしれません。こうしたアシスタントは概して機械的なため、どうしても先入観が生まれてしまいます。そこで疑問が生じます。AIポッドキャストは本当に「人間のように話す」ことができ、機械と話していることを忘れさせてくれるのでしょうか?この疑問に答える前に、ポッドキャストの短いクリップを聞いてみましょう。
(AIによって生成された音声コンテンツ)
二人の司会者の「褒め合いとからかい」の掛け合いが、実は非常に「人間的」であることに気づくのは難しくない。実はこの素材は、豆宝がワンクリックで生成したAIポッドキャストなのだ。さらに、「生き生きとした」効果は、もはや業界では珍しいことではない。機械的な電子音から人間のような音声への変化は、これらすべては、同じ主要技術ライン、つまり最新のニューラル ネットワーク テキスト読み上げ (TTS) 技術の開発の恩恵を受けています。
従来の機械化された合成およびスプライシングTTS技術とは異なり、最新の TTS は、ディープラーニング モデルを使用して、イントネーション、音色、話す速度、感情、スタイルなどの音声の多次元的な特徴をより適切に捉え、より自然で流暢、かつ表現力豊かな音声を生成します。これを基に、敵対的トレーニング、大規模言語モデルに基づく音声モデリング、マルチモーダル条件制御などのテクノロジーが追加されたことで、モデルによって生成された音声を人間の音声と区別することがますます困難になりました。
例えば、マイクロソフトは今年8月に新しいTTSモデル「VibeVoice-1.5B」をリリースしました。革新的な連続音声トークン化技術と次世代トークンセグメンテーション拡散フレームワーク、そして大規模言語モデルを組み合わせることで、長時間の音声シーケンスを効率的に処理することが可能になりました。
オンラインチュートリアルのリンク:https://go.hyper.ai/6ruF7
Mianbi Intelligenceと清華大学深圳国際大学院は、0.5億パラメータの音声生成モデルVoxCPMを共同で開発しました。このモデルは、エンドツーエンドの拡散自己回帰アーキテクチャを用いてテキストから直接連続音声表現を生成することで、従来の離散単語分割の限界を打破しました。このモデルは、音声合成において、優れた自然さ、音色の類似性、そしてリズム表現力を実現しています。
オンラインチュートリアルのリンク:https://go.hyper.ai/frmze
Bilibili Voiceチームが開発したIndexTTS-2は、斬新で汎用性が高く、自己回帰モデルに適した音声継続時間制御手法を提案しています。これは、正確な継続時間制御をサポートする初の自己回帰TTSモデルです。
オンラインチュートリアルのリンク:https://go.hyper.ai/z7Jdt
HyperAI公式サイト(hyper.ai)の「チュートリアル」セクションに、高品質なオープンソースTTSモデルのワンクリックデプロイチュートリアルが多数公開されています。ぜひアクセスしてお試しください。

現在のAIポッドキャストエコシステム:2種類のプレーヤーと複数のトラック
アプリケーションレベルでは、前述の技術が徐々に注目を集め始めています。現在、市場に出回っているAIポッドキャスト製品は、その背景に基づいて2つの陣営に分けられます。
一方で、大手企業の参加は間違いなく AI ポッドキャストの動向に弾みをつけ、この分野への注目を急速に高めました。その中でも、このサークルから出てきた最も初期の製品は、高度に要約された音声概要で知られる Google の NoteBookLM です。ユーザーが情報を素早く理解できるように設計された強力なオーディオ機能は、AIポッドキャストにも効果的なツールとなっています。最近の最適化により、中国語を含む50以上の言語をサポートし、以前は英語しか使えなかったという問題を解決しました。ByteDance が立ち上げた Doubao は、Volcano Engine の大規模モデル機能を活用して、ワンクリックでポッドキャスト コンテンツを生成します。エンドツーエンドの言語対話は、「聞く、理解する、そして同時に答える」という意味で理解できます。その自然さと質感は、中国のAIポッドキャストの中でも最高レベルです。さらに、Xiaohongshuオーディオチームは最近、ダイアログ生成モデルFireRedTTS-2も導入しました。関連論文は「FireRedTTS-2: ポッドキャストとチャットボットのための長い会話音声生成に向けて」というタイトルでarXivに掲載されました。

一方、スタートアップチームは多様な革新能力を発揮します。代表的な製品としては、「すべての人のためのAIラジオ局」を標榜し、すべてのポッドキャスト番組をAIが生成するLaifu Radio、MiaoYa Camera創業者の張躍光氏とそのチームが立ち上げたChatPodsが挙げられます。ChatPodsは、AIを用いて音声を抽出し、パーソナライズされたポッドキャストを推奨するパーソナルな「AIポッドキャストエージェント」に焦点を当てています。また、元NotebookLMチームメンバーが立ち上げた「Huxe」も、AIを活用した便利でパーソナライズされたコンテンツの制作に注力しています。DeepCasts機能は、ユーザー専用のAIポッドキャストを瞬時に生成し、いつでもどこでもカスタマイズされた知識獲得を可能にします。


結論
ポッドキャストのコンテンツ制作とインタラクティブ形式における前述のイノベーションに加えて、ポッドキャスト分野における AI の強化は、クリエイティブ チェーンのより多くのリンクにも浸透しています。
9月16日に開催された「Made on YouTube」イベントで、YouTube CEOのニール・モハン氏は一連の新しいAIツールを発表した。興味深いツールの 1 つは、ポッドキャスト作成者向けに特別に設計されたオーディオ ビデオ AI 生成ツールです。このツールにより、ポッドキャスト作成者はポッドキャストのビデオ スライスを簡単に作成できるようになります。

このツールのリリースは、実はポッドキャスト分野への AI テクノロジーの現在の深い浸透を示す縮図なのです。クリエイターの視点から見ると、AIポッドキャストの登場により、コンテンツ制作の敷居は大幅に下がりました。スクリプトの最適化だけでなく、編集、レコメンデーション、配信までも支援してくれるため、個人クリエイターや小規模チームでも高品質な番組を迅速に制作できます。ユーザーの視点から見ると、AI によって、よりインテリジェントなコンテンツ推奨が可能になり、リスナーは自分に合ったポッドキャスト コンテンツを効率的に入手できるほか、音声アシスタントのサポートにより、より没入感のあるリスニング体験も実現できます。
全体、AI ポッドキャストは盛んに行われていますが、その理由はポッドキャスト分野の潜在的な商業的価値にあります。「2024年ポッドキャスト業界レポート」によると、調査対象ユーザーの45.91%が過去1年間に有料ポッドキャストを購入しており、63.61%がポッドキャスト広告に前向きです。ライフスタイルや消費習慣の変化に伴い、ポッドキャスト業界はかつてのような「小さくて美しい」ニッチな存在ではなくなるかもしれません。その潜在能力は未開拓であり、従来のポッドキャスト業界が直面している収益化の課題は、AIの助けを借りて新たな解決策を見出すことができるかもしれません。生産性の向上であれ、より満足度の高いユーザーエクスペリエンスであれ、ポッドキャスト業界の未来は大きな希望に満ちています。
参考リンク:
1.https://mp.weixin.qq.com/s/WH60YKbhAEf51si4mlZoNQ
2.https://asmp-eurasipjournals.springeropen.com/articles/10.1186/s13636-024-00329-7
3.https://mp.weixin.qq.com/s/XFK59UJu9appRpHmtsIjeg
4.https://techcrunch.com/2025/09/23/former-notebooklm-devs-new-app-huxe-taps-audio-to-help-you-with-news-and-research/
5.https://www.huxe.com/blog
6.http://www.news.cn/fortune/20250407/669ffc4208b24ce895c9b560b05ff6a0/c.html