HyperAI
منذ 2 أيام

الدردشة مع الذكاء الاصطناعي: التطور المفاجئ للاتصال الفيديو الزمني الحقيقي من الإنسان إلى الذكاء الاصطناعي

Jiangkai Wu; Zhiyuan Ren; Liming Liu; Xinggong Zhang
الدردشة مع الذكاء الاصطناعي: التطور المفاجئ للاتصال الفيديو الزمني الحقيقي من الإنسان إلى الذكاء الاصطناعي
الملخص

تُعد محادثات الفيديو بالذكاء الاصطناعي (AI Video Chat) نموذجًا جديدًا لاتصالات الوقت الفعلي (Real-time Communication - RTC)، حيث لا يكون الطرف الآخر إنسانًا، بل نموذجًا كبيرًا متعدد الوسائط (Multimodal Large Language Model - MLLM). مما يجعل التفاعل بين الإنسان والذكاء الاصطناعي أكثر سهولة وطبيعية، وكأنك تتحدث وجهًا لوجه مع شخص حقيقي. ومع ذلك، يشكل هذا تحديًا كبيرًا في زمن الانتظار (latency)، لأن استنتاج نموذج MLLM يستهلك معظم وقت الاستجابة، مما يترك وقتًا قصيرًا جدًا للبث الفيديو. بسبب عدم اليقين وعدم الاستقرار في الشبكة، يصبح زمن الانتظار عائقًا رئيسيًا يمنع الذكاء الاصطناعي من أن يكون مثل شخص حقيقي. لمعالجة هذه المشكلة، نقترح إطار عمل Artic لاتصالات الوقت الفعلي الموجهة للذكاء الاصطناعي، حيث نستكشف تحول متطلبات الشبكة من "الإنسان يشاهد الفيديو" إلى "الذكاء الاصطناعي يفهم الفيديو". لخفض معدل النقل (bitrate) بشكل كبير مع الحفاظ على دقة نموذج MLLM، نقترح بث الفيديو المدروس بالسياق (Context-Aware Video Streaming)، الذي يدرك الأهمية لكل منطقة في الفيديو للدردشة، ويخصص معدل النقل تقريبًا فقط للمناطق ذات الأهمية للدردشة. لتجنب إعادة إرسال الحزم (packet retransmission)، نقترح معدل إطارات مرن مقاوم للخسارة (Loss-Resilient Adaptive Frame Rate)، الذي يستخدم الإطارات السابقة لتعويض الإطارات المفقودة أو المتأخرة، مع تجنب هدر معدل النقل. لتحليل تأثير جودة بث الفيديو على دقة نموذج MLLM، نقوم ببناء أول معيار تقييم، يُسمى معيار فهم الفيديو المتدهور (Degraded Video Understanding Benchmark - DeViBench). في النهاية، نناقش بعض الأسئلة المفتوحة والحلول الجارية لمحادثات الفيديو بالذكاء الاصطناعي.