كيف تُدمج أنظمة معالجة الرؤية الحاسوبية مع الذكاء الاصطناعي التوليدي والتفكير المنطقي
يُعدّ التكامل بين أنظمة رؤية الحاسوب والذكاء الاصطناعي التوليدي والقدرة على التفكير المنطقي خطوة متقدمة في تطوير تحليل الفيديو، حيث ينتقل من مجرد احتساب الكائنات إلى فهم حقيقي للسياق في الوقت الفعلي. أطلقت NVIDIA الإصدار 2.4 من "النظام البيئي لبحث الفيديو وملخصه" (VSS)، جزءًا من منصة Metropolis، لتمكين المطورين من بناء أنظمة ذكية قادرة على استخلاص رؤى دقيقة من تدفقات الفيديو، سواء المخزنة أو الحية. أبرز التحسينات في الإصدار 2.4 تشمل تكاملًا مُحسّنًا مع نموذج "Cosmos Reason"، وهو نموذج ذكاء اصطناعي بصرية-لغوية (VLM) مُصمم للتفكير المنطقي في العالم الحقيقي، باستخدام المعرفة السابقة، وفهم القوانين الفيزيائية، والمنطق العام. يُمكنه توليد وصفات غنية للقطائع، وتحديد الكائنات ذات الاهتمام، وتحليل الأسباب الجذرية للأحداث، مما يعزز فهمًا أعمق في مجالات مثل المصانع، المستودعات، المتاجر، وشبكات النقل. كما تم تطوير وظيفة البحث والأسئلة (Q&A) لدعم التحليل عبر كاميرات متعددة، عبر بناء رسم بياني للمعرفة (Knowledge Graph) من خلال تحليل محتوى الفيديو باستخدام VLM وLLM. أُضيفت ميزة تنظيف الرسم البياني لاستبعاد التكرارات، مما يضمن اندماج الكائنات المتشابهة (مثل سيارة تنتقل بين كاميرات) في كيان واحد، مما يحسن دقة الإجابات. كما تم دعم نموذج ذكاء اصطناعي عامل (Agentic-based) يُفكك الأسئلة ويستكشف الرسم البياني بذكاء، مع إمكانية إعادة التحقق من لقطات فيديو لضمان دقة الاستجابة. تم توسيع دعم قواعد البيانات البيانية لتشمل ArangoDB، مع دعم مُسرّع بالـ CUDA لتسريع عمليات التوليد والبحث، مما يُعزز الأداء في البيئات متعددة GPU. في السياقات الحافة (Edge)، تم تقديم ميزة "مُراجع الحدث" (Event Reviewer)، التي تُستخدم كإضافة ذكية لأنظمة رؤية الحاسوب الحالية. بدلًا من تحليل الفيديو بشكل مستمر، تُفعّل هذه الميزة فقط عند اكتشاف أحداث مهمة (مثل تصادم)، حيث تُرسل لقطات قصيرة إلى VSS لتحليلها بسرعة باستخدام VLM، مما يقلل التكلفة الحاسوبية ويوفر إشعارات منخفضة التأخير. أيضًا، تم توسيع دعم الأجهزة لتشمل منصات NVIDIA Blackwell مثل Jetson Thor (للمواقع الحافة)، وRTX Pro 6000 (للمحطات والخوادم)، مع دعم قادم لـ DGX Spark، مما يتيح توزيعًا مرنًا حسب الحاجة. باستخدام ميزة "Brev Launchable" من NVIDIA، يمكن للمطورين بدء التشغيل في دقائق عبر نسخة جاهزة، مع مكتبات Jupyter وواجهة ويب وواجهات برمجة التطبيقات (APIs) لتسهيل التكامل. الموارد التقنية الكاملة متاحة على GitHub، مع دعم فني عبر منتدى NVIDIA Developer. باختصار، يُعدّ الإصدار 2.4 من VSS خطوة جوهرية نحو أنظمة ذكية قادرة على رؤية العالم، وفهمه، واتخاذ قرارات قائمة على السياق، سواء في السحابة أو على الحافة.
