HyperAIHyperAI

Command Palette

Search for a command to run...

Console

ملخص الفعالية | جامعة بكين، جامعة تسينغهوا، زيليز، ومونبيت يناقشون المصادر المفتوحة، ويغطون توليد الفيديو، والفهم البصري، وقواعد البيانات المتجهة، ولغات البرمجة الأصلية للذكاء الاصطناعي

منذ 5 أيام
معلومة
h.li
Featured Image

يشهد قطاع الذكاء الاصطناعي حاليًا دورة تطوير غير مسبوقة. فالتطبيق واسع النطاق للنماذج الضخمة، وإعادة هيكلة أنظمة البرمجيات المصممة خصيصًا للذكاء الاصطناعي، والتطور المتسارع للنماذج الأساسية متعددة الوسائط، كلها عوامل تُساهم في طمس الحدود بين الأوساط الأكاديمية والصناعية. وسواءً تعلق الأمر بالمتطلبات المتزايدة التعقيد لمزامنة الصوت والصورة في توليد الفيديو، أو تحسين الاستدلال الفعال للنماذج المرئية على الأجهزة، أو ظهور لغات برمجة الجيل التالي المصممة خصيصًا للذكاء الاصطناعي، فإن كل ذلك يُؤدي إلى اتجاه واضح.أصبح التعاون بين الصناعة والأوساط الأكاديمية والأنظمة البيئية مفتوحة المصدر من أهم نماذج الابتكار في عصر الذكاء الاصطناعي.

على مدى العقود القليلة الماضية، كان من الشائع أن يقود البحث العلمي الصناعة، وأن تدعم الصناعة البحث العلمي. إلا أنه في ظل النمو المتسارع الذي نشهده اليوم في النماذج وقوة الحوسبة والبيانات، لم يعد الابتكار الأحادي كافياً لتلبية الاحتياجات.لقد تطورت المصادر المفتوحة من مجرد مشاركة الأدوات إلى التعاون في البنية التحتية، لتصبح حلقة وصل رئيسية تربط الجامعات والمؤسسات والمجتمعات والمطورين الأفراد.وخاصة في المجالات المتطورة مثل الرؤية، والوسائط المتعددة، وقواعد البيانات المتجهة، ولغات برمجة الذكاء الاصطناعي، لم يساهم المصدر المفتوح في تسريع وتيرة نشر التكنولوجيا فحسب، بل أعاد أيضًا تشكيل طريقة تنظيم البحث والتطوير، مما أدى إلى ظهور المزيد من "الابتكار المشترك".

وفي هذا السياق،استضافت HyperAI، بصفتها مجتمعًا مشاركًا في إنتاج COSCon'25، "منتدى التعاون بين الصناعة والبحث العلمي في مجال المصادر المفتوحة" في 7 ديسمبر.يشرفنا أن ندعو شي بايشين، الباحث في جامعة بكين، ولي تشنغلونغ، كبير دعاة المصادر المفتوحة في زيليز، وتشن هوي، الباحث المساعد في جامعة تسينغهوا، ولي تشنغيو، المطور الأساسي في مجتمع مونبيت، لمناقشة مسار تنفيذ الأبحاث المتطورة في النظام البيئي للمصادر المفتوحة، والنموذج التكراري لمشاريع المصادر المفتوحة في الممارسة الصناعية، وكيف ستواصل تطبيقات الذكاء الاصطناعي توسيع حدودها من خلال قوة المجتمع في المستقبل.

شي بايشين: بناء مجموعة بيانات جديدة تمامًا لتحقيق نموذج جديد لتقنية توليد الفيديو ومزامنة الصوت والصورة

شهدت تقنيات توليد الفيديو حاليًا تقدمًا ملحوظًا في جودة الصورة والتماسك الزمني قصير المدى، ما مكّنها من إنتاج مقاطع قصيرة عالية الدقة وتحقيق درجة معينة من التزامن بين الصوت والصورة. مع ذلك، لا تزال الطرق التقليدية تواجه مشكلات مثل تشوه خطوط الطول والعرض، وعدم استمرارية دمج زوايا الرؤية، وضعف اتساق الأهداف المتحركة، وعدم كفاية الاستقرار الزمني طويل المدى. علاوة على ذلك، ثمة ترابط وثيق بين المحتوى الصوتي والمرئي. ولتمكين النماذج من التقاط أنواع متعددة من المعلومات، كالكلام والموسيقى والأصوات المحيطة، بشكل واقعي، من الضروري بناء إطار عمل لتوليد الفيديو قادر على فهم الإشارات متعددة المسارات.

المعلم شي بايشين

وفي هذا السياق،اقترح فريق البروفيسور شي بايشين تقنية التدفق الفاصل الزمني للمزامنة السمعية البصرية، والتي تمكن النموذج من "النظر إلى عدة إطارات قبل وبعد" أثناء عملية التعلم، وبالتالي إنشاء روابط انتباهية عبر الزمن.من خلال دمج وحدات داخلية، يستطيع النموذج تطبيق آليات الانتباه الذاتي على مسارات صوتية مختلفة لمعالجة أنواع مختلفة من المعلومات الصوتية بدقة أكبر، مثل الكلام والأصوات المحيطة. ونظرًا للطبيعة الشاملة للجزء الموسيقي، قام الفريق بتطبيق عرض عاطفي من خلال حقن الميزات الشاملة، مما مكّن النموذج من توليد صور مرئية متناسبة مع الجو الموسيقي.

قدّم البروفيسور شي بايشين الإنجازات التي حققها الفريق في هذا المشروع:

* تم اقتراح إطار عمل متعدد الوظائف لتوليد الفيديو المتزامن مع الصوت.يتم تحقيق التخطيط السمعي البصري الدقيق والمحاذاة الزمنية الدقيقة من خلال الصوت المفصول.

* تم إنشاء مجموعة بيانات جديدة لتوليد الفيديو المتزامن مع الصوت، تتكون من 5 مجموعات فرعية متداخلة.تحتوي هذه المجموعة على ما يقارب 392,000 مقطع صوتي ومرئي، بإجمالي حوالي 1,200 ساعة. وبناءً على هذه البيانات، يستطيع النموذج تعلم مزامنة حركة الشفاه مع تعابير الوجه، والتحكم في توقيت الأحداث، وتجسيد الأجواء العاطفية خلال جولات تدريبية متعددة.

* تم اقتراح شبكة تحكم زمني متعددة التدفقات لمعالجة المسارات الصوتية المفصولة.تحكم دقيق في مزامنة حركة الشفاه، وتوقيت الأحداث، والجو العاطفي.

تم اختيار النتائج ذات الصلة، بعنوان "توليد الفيديو المتزامن مع الصوت مع التحكم الزمني متعدد التدفقات"، لمؤتمر NeurIPS 2025.

بجانب،كما حقق فريق البروفيسور شي بايشين القدرة على توليد مقاطع فيديو بانورامية تحتوي على أهداف متحركة حقيقية، ويدعم مهامًا مثل مقاطع الفيديو الطويلة، والتحرير الدلالي، والدقة الفائقة، واستيفاء وجهة النظر.تستخدم هذه الطريقة تقنية أخذ عينات تراعي خطوط العرض لتقليل تشوه الصورة الناتج عن الإسقاط المستطيل متساوي المسافات بشكل فعال. وفي الوقت نفسه، تعالج مشكلة عدم التماسك الدلالي البصري عند حدود خطوط الطول من خلال إزالة التشويش الدلالي الدوراني واستراتيجيات فك التشفير لملء الحدود بكسلًا بكسلًا.

تم أيضًا تضمين النتائج ذات الصلة، بعنوان "PanoWan: رفع نماذج توليد الفيديو الانتشارية إلى 360 درجة باستخدام آليات مدركة لخطوط الطول والعرض"، في مؤتمر NeurIPS 2025.

لي تشنغلونغ: بناء خدمات تجارية بالاعتماد على ميلفوس، أول قاعدة بيانات متجهات مفتوحة المصدر

في أكتوبر 2019،تم إطلاق برنامج Milvus رسميًا كمصدر مفتوح. وباعتباره أول قاعدة بيانات متجهات مفتوحة المصدر في العالم، فقد تم تطبيقه في مشاريع لأكثر من 10000 مؤسسة وحصل على 40000 نجمة على منصة GitHub.يغطي برنامج Milvus مجموعة واسعة من أنواع البيانات، ويدعم أنواعًا مختلفة من البيانات المتجهة مثل البيانات العشرية (Float) والبيانات المتفرقة (Sparse) والبيانات الثنائية (Binary). كما يتيح الحذف الديناميكي والإضافة والاسترجاع الفوريين، بالإضافة إلى حفظ البيانات على القرص في الوقت الفعلي. علاوة على ذلك، يدعم البرنامج وظائف تصفية البيانات باستخدام الوسوم والبيانات المتجهة، ووظائف البحث باستخدام الكلمات المفتاحية والبيانات المتجهة.

المعلم لي تشنغ لونغ

استعرض البروفيسور لي تشنغلونغ التطور المعماري لبرنامج ميلفوس، مشيرًا إلى أنه في إصدار LTS الذي صدر في مارس 2021،لقد قام الفريق بالكثير من العمل الهندسي فيما يتعلق باستمرارية البيانات، وتجزئة البيانات، ودعم الأجهزة غير المتجانسة المختلفة.مع ذلك، لا يزال لهذا الإصدار عيبٌ جوهري: فجميع عمليات كتابة البيانات وفهرستها، وما إلى ذلك، تتم في مكون واحد، مما يُشكل بنيةً أحادية الجهاز. ويكمن عيبه الرئيسي في محدودية قابليته للتوسع عند ضخامة حجم البيانات أو ارتفاع معدل الاستعلامات في الثانية، مما يُصعّب عليه تلبية احتياجات الشركات الكبيرة من البيانات الضخمة أو سيناريوهات حركة الاستعلامات الكثيفة، مثل يوم العزاب.

حالياً، قام الفريق بإجراء العديد من التحسينات على بنية أحدث إصدار من Milvus 2.6، مثل إضافة StreamingNode للتعامل مع البيانات التزايدية، ودمج DataNode و IndexNode، وإضافة Woodpecker المطور ذاتياً إلى قائمة انتظار رسائل طبقة الكائنات، وما إلى ذلك.

بعد تحقيق النجاح في مجال المصادر المفتوحة، بدأ زيليز في التفكير في كيفية تسويقه، واكتشف في النهاية أنه لا توجد في الأساس سوى طريقة واحدة لتسويق البنية التحتية مفتوحة المصدر:وهذا يعني تقديم خدمات SaaS على السحابة العامة.لذا، بالإضافة إلى منصة Milvus مفتوحة المصدر، قامت الشركة أيضاً ببناء سحابة Zilliz مُدارة بالكامل استناداً إليها. وقد تعرف العديد من عملائنا الحاليين من الشركات على الشركة لأول مرة من خلال مشروع Milvus مفتوح المصدر، مما دفعهم إلى تقدير المنتج والترويج لخدمات SaaS اللاحقة.

تشين هوي: بناء شبكة أساسية خفيفة الوزن لتحقيق فهم بصري فعال ودقيق من جانب الحافة

تُعدّ تقنية الفهم البصري موضوعًا بالغ الأهمية في مجال الذكاء الاصطناعي، لما لها من قيمة بحثية وتطبيقية أكاديمية كبيرة. وتُستخدم هذه التقنية حاليًا على نطاق واسع في الأجهزة المحمولة، والروبوتات، والقيادة الذاتية، وغيرها من التطبيقات الطرفية. إلا أنه نظرًا لبعض القيود، كضعف القدرة الحاسوبية للرقائق المصنّعة محليًا، والتكرار الكبير في هياكل النماذج التقليدية، فضلًا عن الحاجة إلى مرونة عالية في السيناريوهات المعقدة، فإنّ البحث عن نماذج بصرية فعّالة يُعدّ ضروريًا للغاية.

المعلمة تشن هوي

لتلبية احتياجات تطبيقات المحطات الطرفية الفعلية،ركز فريق البروفيسور تشين هوي على كل من تنوع النموذج الأساسي وكفاءة الاستدلال، وقام ببناء شبكة أساسية خفيفة الوزن لإنشاء نموذج بصري أساسي فعال وعالمي، وبالتالي تحقيق فهم بصري دقيق وفعال للحواف.تشمل جوانبها التقنية الرئيسية ثلاثة جوانب:

* تصميم هياكل التعلم العميق غير المتماثلة وهياكل الشبكات الديناميكية خفيفة الوزن؛

* نموذج الكشف عن الأهداف في الوقت الحقيقي من البداية إلى النهاية YOLOv10؛

* فهم بصري عام مفتوح المجال.

لمعالجة مشكلة التكرار الناتجة عن بنية "التدريب والاستدلال" المتناظرة لنماذج التعلم العميق،اقترح الفريق مفهوم "بنية التعلم العميق غير المتماثلة".خلال مرحلة التدريب، يُستخدم هيكل أكثر تعقيدًا لتحسين فعالية التعلم، بينما تُستخدم تحويلات مكافئة خلال مرحلة الاستدلال لضغط مسار الحساب، مما يتيح نشرًا سريعًا وخفيفًا. وفي هذا الإطار، أطلق الفريق العديد من الشبكات الأساسية المؤثرة، بما في ذلك RepViT (مؤتمر رؤية الحاسوب وأنماط التعرف 2024) وLSNet (مؤتمر رؤية الحاسوب وأنماط التعرف 2025).

فيما يتعلق بالكشف عن الأهداف،ركز الفريق على التغلب على نقطتي ضعف رئيسيتين في نماذج سلسلة YOLO: دمج الإطارات المتعددة مما يؤدي إلى الاعتماد على NMS والتكرار في بنية النموذج.ولحل هذه المشكلة، اقترح الفريق استراتيجية مطابقة ثنائية متسقة. أثناء التدريب، يتم تحسين رؤوس الكشف من نوع واحد إلى واحد ومن نوع واحد إلى متعدد بنفس التردد، بينما أثناء الاستدلال، يتم استخدام رؤوس الكشف من نوع واحد إلى واحد فقط، مما يضمن الكشف والتعرف بدون فقدان للبيانات وبدون استخدام NMS. 

علاوة على ذلك، طُوِّرت أساليب تصميم نماذج تركز على الكفاءة والدقة لمعالجة التعقيد الحسابي العالي الناتج عن التكرار الهيكلي للنموذج. واستنادًا إلى هذه الأساليب، تم بناء جيل جديد من نماذج كشف الأهداف عالية الكفاءة والدقة، YOLOv10 (NeurIPS 2024)، الخالية من NMS، محققةً توازنًا متطورًا بين الأداء وكفاءة الاستدلال.

* اطلع على الورقة البحثية:

https://hyper.ai/papers/2405.14458

فيما يتعلق بتطبيق النماذج في سيناريوهات متنوعة، غالبًا ما تكون نماذج الكشف عن الأجسام التقليدية محدودة بمجموعات تصنيفات محددة مسبقًا، مما يصعب تكييفها مع سيناريوهات العالم المفتوح الواقعية. ولمعالجة هذه المشكلة، أطلق الفريق YOLOE (ICCV 2025)، وهو نموذج أساسي للفهم البصري في السيناريوهات المفتوحة. يوفر نموذج اللغة الضخم هذا تمثيلات متعددة الوسائط قابلة للتعميم، ويستخدم تقنيات إعادة تحديد المعلمات الهيكلية لتقليل تعقيد الاستدلال، ويحقق نموذجًا موحدًا يدعم في آنٍ واحد الكشف عن الأجسام المفتوحة وتقسيمها. كما يدعم إشارات مفتوحة متعددة الوسائط، بما في ذلك النصوص والصور، متجاوزًا بذلك قيود نماذج الفهم البصري التقليدية.

لي تشنغيو: مونبيت، ممارسات المصادر المفتوحة لإعادة بناء إنتاجية البرمجيات في عصر الذكاء الاصطناعي

ينطلق بحث MoonBit من واقع صناعي بات واضحًا بشكل متزايد: أصبحت النماذج واسعة النطاق جزءًا لا يتجزأ من عملية تطوير البرمجيات بأكملها، لكن أنظمة الهندسة الحالية لا تستطيع التكيف تمامًا مع هذا التغيير. ومع اندماج النماذج واسعة النطاق في عملية التطوير، تشهد هندسة البرمجيات تحولًا جذريًا؛ فلم يعد الذكاء الاصطناعي مجرد أداة، بل أصبح عنصرًا أساسيًا في عمليات توليد الشفرة وإعادة هيكلتها والتحقق منها.يتحول النموذج تدريجياً من النموذج التقليدي "البرمجة المكتوبة بواسطة الإنسان + مساعدة الآلة" إلى "البرمجة المولدة بواسطة الذكاء الاصطناعي والتطوير والمراجعة". يُعد فريق MoonBit في معهد أبحاث IDEA رائدًا في هذا الاتجاه.

الدكتور لي تشنغيو

أوضح الدكتور لي تشنغيو، وهو مطور رئيسي في مجتمع MoonBit، أن لغات البرمجة التقليدية لم تكن مُحسَّنة للتفاعل مع الذكاء الاصطناعي في تصميمها الأولي، وأن التعليمات البرمجية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي غالبًا ما تعاني من ضعف قابلية القراءة وصعوبة تصحيح الأخطاء وصعوبة إعادة الاستخدام. يهدف مشروع MoonBit إلى إعادة بناء نظام إنتاج برمجيات يتكيف مع العصر الذكي باستخدام لغة برمجة أصلية للذكاء الاصطناعي.الهدف هو جعل الكود الذي يولده الذكاء الاصطناعي أسهل للفهم بالنسبة للبشر، وأكثر انسجامًا مع الممارسات الهندسية، وتحسين الكفاءة العامة للتطوير وإعادة الهيكلة وتصحيح الأخطاء، وبناء منصة تطوير سحابية أصلية للذكاء الاصطناعي موجهة نحو المستقبل بطريقة مفتوحة المصدر.

ذكر لي تشنغيو في عرضه التقديمي أن تصميم لغة مونبيت، ومجموعة أدوات الترجمة، وتطوير النظام البيئي، كلها تؤكد على ثلاثة أهداف أساسية:

* يسعى إلى تحقيق أقصى سرعة تجميع وحجم الهدف الناتج، ويحتوي على وظائف أداة التحليل الثابت؛

* يتميز بسهولة التعلم وانخفاض التعقيد؛

* بناء قدرات تعبيرية غنية لا تعتمد على الأعراف.

انطلاقاً من هذا التوجه،لقد جمع مجتمع MoonBit آلاف الحزم مفتوحة المصدر في مجالات مختلفة مثل تطوير الويب والحوسبة العددية ومجموعات تطوير البرامج الوسيطة مفتوحة المصدر، مما يشكل نظامًا بيئيًا مجتمعيًا مزدهرًا.في مجال التعاون مع قطاع الصناعة، تعمل MoonBit بنشاط على إقامة روابط تقنية مع لغات Python وJavaScript وWebAssembly. من خلال التغليف الآلي، واستدعاءات اللغات المتعددة، ومجموعة أدوات واجهة الوحدات النمطية الموحدة، لا يستطيع المطورون فقط إعادة استخدام بيئة Python المتكاملة داخل MoonBit، بل يمكنهم أيضًا استدعاء كود JavaScript بسلاسة أو دمج مكونات WASM، مما يقلل بشكل كبير من تكاليف التطوير المتكرر والتوافق في سيناريوهات اللغات المتعددة.

ملخص الفعالية | جامعة بكين، جامعة تسينغهوا، زيليز، ومونبيت يناقشون المصادر المفتوحة، ويغطون توليد الفيديو، والفهم البصري، وقواعد البيانات المتجهة، ولغات البرمجة الأصلية للذكاء الاصطناعي | الأخبار | HyperAI