HyperAIHyperAI

Command Palette

Search for a command to run...

من اختبار WeChat الرمادي إلى إخفاقات Google/ByteDance/Xiaohongshu، هل يمكن لبودكاست الذكاء الاصطناعي الاستيلاء على المحيط الأزرق الجديد لـ AIGC؟

Featured Image

ربما لاحظ الأصدقاء الذين يتابعون الحسابات العامة عادةً أن WeChat قد أطلق ميزة جديدة منذ فترة - "الأخبار". في هذا القسم، لا يقتصر الأمر على قراءة الأخبار اليومية فحسب، بل يتيح للمستخدمين أيضًا الاستماع إلى بودكاست إخباري يقدمه مذيعان، رجل وامرأة، على شكل محادثة، تغطي الأخبار الساخنة والدولية وجوانب أخرى. والأمر الأكثر إثارة للاهتمام هو أنتم وضع علامة واضحة على الكلمات "تم إنشاؤها بواسطة الذكاء الاصطناعي" أسفل عنوان البودكاست، مما يدل على أن WeChat يجري اختبارًا رماديًا لبودكاست الذكاء الاصطناعي.يأتي هذا التحرك في أعقاب الأخبار التي تفيد بأن شركة Tencent Hunyuan أطلقت رسميًا وظيفة AI podcast في 5 أغسطس، وتم عرض حل الصناعة "AI News + AI Podcast" علنًا بواسطة Tencent Cloud Smart Media في مؤتمر Tencent Global Digital Ecosystem Conference في الفترة من 16 إلى 17 سبتمبر.

في السنوات الأخيرة، حققت الرسومات المدعومة بالذكاء الاصطناعي (مثل Midjourney وStable Diffusion) ومقاطع الفيديو المدعومة بالذكاء الاصطناعي (مثل Veo3 وWan2.2) انتشارًا عالميًا. والآن، يستحوذ البث الصوتي عبر الذكاء الاصطناعي على اهتمام واسع. مع التطورات الهائلة في نماذج اللغات الكبيرة لتوليد النصوص الحوارية، وتطور تقنية توليف الكلام عالي الدقة، يتأثر البث الصوتي، وهو شكل يعتمد بشكل كبير على المبدعين، بالذكاء الاصطناعي أيضًا.

سر نجاح بودكاست الذكاء الاصطناعي في تحقيق "شعور حي"

إذا كنت تبحث عن توصيات لبودكاستات عالية الجودة على وسائل التواصل الاجتماعي، فستجد بالتأكيد "بودكاست مباشر" بين مصطلحات البحث ذات الصلة.في الواقع، يشير ما يسمى بـ "الحيوية" إلى التعبير العاطفي الطبيعي للمبدعين من خلال محادثات البودكاست.إن هذه التوقفات والترددات بين الكلمات، أو نوبات الضحك والجدال المفاجئة، هي ما يجعل المستمعين يشعرون بحضور حقيقي. ولكن عندما يفكر الناس في بودكاستات الذكاء الاصطناعي، قد يتبادر إلى أذهانهم المساعدون الصوتيون الذكيون العاديون، مثل المساعدين الصوتيين للهواتف المحمولة، والمساعدين الصوتيين في السيارات، والمساعدين المنزليين الذكيين. طبيعتها الميكانيكية عمومًا تُولّد حتمًا تصورًا مسبقًا عنها. لذا، يُطرح السؤال: هل يمكن لبودكاستات الذكاء الاصطناعي أن "تتحدث كشخص حقيقي"، فتجعل الناس ينسون أنهم يتحدثون إلى آلة؟ قبل الإجابة على هذا السؤال، لنستمع إلى مقطع قصير من البودكاست.

(المحتوى الصوتي الذي تم إنشاؤه بواسطة الذكاء الاصطناعي)

ليس من الصعب أن نجد حوارَ المُضيفَين، وهو عبارة عن ردٍّ ضمنيٍّ على "المديح والسخرية"، إنسانيًا تمامًا. في الواقع، هذه المادة عبارة عن بودكاست ذكاء اصطناعيّ من إنتاج دوباو بنقرة واحدة. علاوةً على ذلك، لم يعد تأثير "الحيوية" حالةً معزولةً في هذا المجال. فالتحول من الصوت الإلكترونيّ الميكانيكيّ إلى الكلام البشريّ،يستفيد جميعهم من تطوير نفس خط التكنولوجيا الرئيسي - تكنولوجيا تحويل النص إلى كلام (TTS) باستخدام الشبكات العصبية الحديثة.

تختلف عن تقنية TTS التقليدية للتركيب والتوصيل الميكانيكي،تستخدم تقنية تحويل النص إلى كلام الحديثة نماذج التعلم العميق لالتقاط ميزات متعددة الأبعاد للكلام بشكل أفضل، مثل التجويد، والجرس، وسرعة التحدث، والعاطفة، والأسلوب، وبالتالي توليد كلام أكثر طبيعية وطلاقة وتعبيرًا.وعلى هذا الأساس، فإن إضافة تقنيات مثل التدريب التنافسي، ونمذجة الكلام استناداً إلى نماذج لغوية كبيرة، والتحكم الشرطي المتعدد الوسائط، جعلت من الصعب بشكل متزايد التمييز بين الكلام الذي يولده النموذج والكلام البشري.

على سبيل المثال، أطلقت مايكروسوفت نموذجًا جديدًا لتحويل النص إلى كلام (TTS)، VibeVoice-1.5B، في أغسطس من هذا العام. بفضل تقنية ترميز الكلام المستمر المبتكرة وإطار عمل الجيل الجديد لتوزيع تجزئة الرموز، بالإضافة إلى نموذج لغوي واسع النطاق، يُحقق هذا النموذج القدرة على معالجة الصوت المتسلسل الطويل بكفاءة.

رابط البرنامج التعليمي على الإنترنت:https://go.hyper.ai/6ruF7

طورت شركة ميانبي إنتليجنس وكلية الدراسات العليا الدولية بجامعة تسينغهوا في شنتشن نموذجًا لتوليد الكلام بمعلمة 0.5 مليار، VoxCPM. يستخدم هذا النموذج بنية انحدار ذاتي منتشر شاملة لتوليد تمثيلات كلامية مستمرة مباشرةً من النص، متجاوزًا بذلك قيود التجزئة التقليدية للكلمات المنفصلة. يحقق النموذج مستويات رائعة من الطبيعية، وتشابه جرس الصوت، والتعبير الإيقاعي في تركيب الكلام.

رابط البرنامج التعليمي على الإنترنت:https://go.hyper.ai/frmze

يقترح IndexTTS-2، الذي طوره فريق Bilibili Voice، طريقةً جديدةً وعالميةً للتحكم في مدة الكلام، متوافقةً مع نماذج الانحدار الذاتي. وهو أول نموذج TTS انحداري ذاتي يدعم التحكم الدقيق في مدة الكلام.

رابط البرنامج التعليمي على الإنترنت:https://go.hyper.ai/z7Jdt

أطلق الموقع الرسمي لشركة HyperAI (hyper.ai) عددًا من دروس النشر بنقرة واحدة لنماذج TTS مفتوحة المصدر وعالية الجودة في قسم "الدروس". نرحب بكم لزيارتها وتجربتها.

النظام البيئي الحالي للبودكاست الذكاء الاصطناعي: نوعان من المشغلات ومسارات متعددة

على مستوى التطبيق، دخلت التقنيات المذكورة أعلاه تدريجيًا إلى دائرة الضوء. حاليًا، يمكن تقسيم منتجات بودكاست الذكاء الاصطناعي المتوفرة في السوق إلى مجموعتين بناءً على خلفياتها:

من ناحية أخرى، أضافت مشاركة اللاعبين الكبار بلا شك وقودًا إلى مسار البودكاست الخاص بالذكاء الاصطناعي وزادت بسرعة من الاهتمام في هذا المجال.ومن بين هذه المنتجات، كان المنتج الأقدم الذي خرج من هذه الدائرة هو NoteBookLM من Google، والذي يُعرف بتلخيصه الصوتي الدقيق.صُمم التطبيق لمساعدة المستخدمين على استيعاب المعلومات بسرعة، وقد أصبحت قدراته الصوتية القوية أداةً فعّالة أيضًا لبودكاست الذكاء الاصطناعي. بعد التحسينات الأخيرة، أصبح يدعم الآن أكثر من 50 لغة، بما فيها الصينية، مُحلًّا بذلك مشكلة عدم القدرة على استخدام اللغة الإنجليزية فقط.تعتمد Doubao، التي أطلقتها شركة ByteDance، على قدرات النموذج الكبيرة لمحرك Volcano لإنشاء محتوى البودكاست بنقرة واحدة.يمكن فهم الحوار اللغوي الشامل على أنه "استماع وفهم وإجابة في آنٍ واحد". فطبيعيته وبنيته من بين الأفضل في بودكاستات الذكاء الاصطناعي الصينية. بالإضافة إلى ذلك،كما قدم فريق الصوت Xiaohongshu مؤخرًا نموذج توليد الحوار FireRedTTS-2.نُشرت الورقة البحثية ذات الصلة على arXiv تحت عنوان "FireRedTTS-2: نحو توليد خطاب محادثة طويل للبودكاست و Chatbot".

ومن ناحية أخرى، تظهر فرق الشركات الناشئة قدرات ابتكارية متنوعة.تشمل المنتجات النموذجية راديو Laifu، الذي يدّعي أنه "محطة إذاعية تعتمد على الذكاء الاصطناعي للجميع"، وتُولّد جميع برامج البودكاست الخاصة به بواسطة الذكاء الاصطناعي؛ وChatPods، الذي أطلقه مؤسس MiaoYa Camera، Zhang Yueguang، وفريقه، ويُركّز على "وكلاء بودكاست الذكاء الاصطناعي" الشخصيين الذين يستخدمون الذكاء الاصطناعي لإنشاء مقتطفات صوتية وتقديم توصيات بودكاست مُخصّصة؛ وHuxe، الذي ابتكره أعضاء سابقون في فريق NotebookLM، ملتزم أيضًا بإنشاء محتوى مُريح ومُخصّص باستخدام الذكاء الاصطناعي. تُتيح ميزة DeepCasts إنشاء بودكاست ذكاء اصطناعي فوريًا وحصريًا للمستخدمين، مما يُتيح اكتساب معرفة مُخصّصة في أي وقت وفي أي مكان.

خاتمة

بالإضافة إلى الابتكارات المذكورة أعلاه في إنتاج محتوى البودكاست والتنسيقات التفاعلية، فإن تمكين الذكاء الاصطناعي لمجال البودكاست قد تغلغل أيضًا في المزيد من حلقات السلسلة الإبداعية.

في حدث "صنع على يوتيوب" الذي أقيم في 16 سبتمبر، أعلن الرئيس التنفيذي لشركة يوتيوب، نيل موهان، عن سلسلة من أدوات الذكاء الاصطناعي الجديدة.ومن بين الأدوات الأكثر إثارة للاهتمام أداة توليد الذكاء الاصطناعي للصوت والفيديو المصممة خصيصًا لمنشئي البودكاست، والتي تساعد منشئي البودكاست على إنتاج مقاطع فيديو بودكاست بسهولة.


لقطة شاشة من فيديو حدث Made on YouTube

إن إطلاق هذه الأداة هو في الواقع نموذج مصغر للتوغل العميق الحالي لتكنولوجيا الذكاء الاصطناعي في مجال البث الصوتي.من وجهة نظر المبدع،لقد ساهم ظهور بودكاستات الذكاء الاصطناعي في خفض متطلبات إنتاج المحتوى بشكل ملحوظ. فهي لا تقتصر على تحسين النصوص فحسب، بل تُساعد أيضًا في التحرير والتوصية وحتى التوزيع، مما يُمكّن المبدعين الأفراد، وحتى الفرق الصغيرة، من إنتاج برامج عالية الجودة بسرعة.من وجهة نظر المستخدم،توفر الذكاء الاصطناعي توصيات أكثر ذكاءً للمحتوى، مما يسمح للمستمعين بالحصول على محتوى البودكاست الذي يناسبهم بكفاءة أكبر، وحتى تحقيق تجربة استماع أكثر غامرة بدعم من المساعدين الصوتيين.

إجمالي،تزدهر برامج البث الصوتي القائمة على الذكاء الاصطناعي، ويكمن السبب في القيمة التجارية المحتملة وراء مجال البث الصوتي.وفقًا لتقرير صناعة البودكاست لعام ٢٠٢٤، اشترى ٤٥.٩١٪ من المستخدمين الذين شملهم الاستطلاع بودكاست مدفوعًا خلال العام الماضي، و٦٣.٦١٪ منهم منفتحون على إعلانات البودكاست. مع تغير أنماط الحياة وعادات الاستهلاك، قد لا يعود مجال البودكاست ذلك المجال "الصغير والجميل" الذي كان عليه سابقًا. إمكاناته تنتظر من يُستغل، وقد تجد تحديات تحقيق الربح التي تواجه صناعة البودكاست التقليدية حلولًا جديدة بمساعدة الذكاء الاصطناعي. سواءً تعلق الأمر بزيادة الإنتاجية أو بتجربة مستخدم أكثر إرضاءً، فإن مستقبل صناعة البودكاست واعدٌ للغاية.

روابط مرجعية:
1.https://mp.weixin.qq.com/s/WH60YKbhAEf51si4mlZoNQ
2.https://asmp-eurasipjournals.springeropen.com/articles/10.1186/s13636-024-00329-7
3.https://mp.weixin.qq.com/s/XFK59UJu9appRpHmtsIjeg
4.https://techcrunch.com/2025/09/23/former-notebooklm-devs-new-app-huxe-taps-audio-to-help-you-with-news-and-research/
5.https://www.huxe.com/blog
6.http://www.news.cn/fortune/20250407/669ffc4208b24ce895c9b560b05ff6a0/c.html

من اختبار WeChat الرمادي إلى إخفاقات Google/ByteDance/Xiaohongshu، هل يمكن لبودكاست الذكاء الاصطناعي الاستيلاء على المحيط الأزرق الجديد لـ AIGC؟ | الأخبار | HyperAI