نVIDIA تُحوّل تقنية رصد النظر إلى أداة حماية في بيئة العمل بينما نُركّز على تطوير واجهات حوارية ذكية، تبرز تقنية رصد النظر كحلٍّ غير متوقع لتعزيز السلامة في بيئات العمل الخطرة. ما بين الحديث الودّي وقيادة شاحنة ثقيلة من نوع كاتربيلا، يتقاطع مفهوم "النظر" في مكانٍ جوهري: هل يُركز الشخص على المهمة؟ النظر ليس مجرد تفاعل اجتماعي — بل هو الواجهة البشرية الأصلية. قبل اللمس، قبل الأزرار، وحتى قبل اللغة، كان النظر يُعبّر عن الانتباه، والثقة، والمشاركة. دراسات نُشرت في مجلة PNAS أظهرت أن لقاء العينين يُشكّل مؤشرًا دقيقًا على ترابط الانتباه في الحوار، بينما ينفصل النظر عند تحوّل الانتباه. في محادثات الإنسان مع الإنسان، يُستخدم النظر لتنظيم التحدث: ينحني المتحدث نظره عند التوقف أو التردد، ويُوجّهه مباشرة نحو المستمع عند انتهاء كلمته. هذه الإشارات غير اللفظية هي ما يُمكّن التفاعل من التدفق السلس — دون كلمات. لكن في التفاعل مع الآلات، تختفي هذه القناة. مساعدات صوتية، أجهزة في السيارات، أنظمة ذكاء اصطناعي — لا ترى عينيك. لا تعرف إن كنت تراقب، ولا تدرك إن كنت تُهمّش. نVIDIA تقدّم حلاً مبتكرًا عبر تقنية Maxine Eye Contact، التي لا تُقيّم النظر فقط، بل تُعيد توجيهه في الفيديو لجعله يبدو وكأنه موجه نحو الكاميرا. ببساطة: إذا لم يكن الشخص ينظر إلى الكاميرا، تُصحّح الصورة لتجعله يفعل ذلك. لكن ما يُثير الاهتمام هو أن هذه التقنية يمكن استغلالها بشكل غير مباشر لرصد السلامة. في بيئة عمل مثل قيادة شاحنة ثقيلة، يمكن استخدام الفرق بين الفيديو الأصلي والمحوّل لتحديد مدى انفصال نظر السائق. كلما زاد التصحيح، زادت درجة التشتت. تم تطوير نموذج تجريبي يعتمد على هذه الفكرة: يُحمّل مقطع فيديو، ويُقارن بين الإطارات الأصلية والمحوّلة. يُظهر النموذج معلومات حية عبر: إطار ملون (أخضر عند الانتباه، أصفر عند الانشغال، أحمر عند تشتت شديد) شريط حالة يُحدّد حالة الانتباه في الزمن الحقيقي مقياس تغير مبني على تغيرات البكسل في منطقة العين مخطط زمني يُظهر تطور التشتت خلال المقطع تقرير أمان يُقدّم نسبة الانتباه، عدد الأحداث، وتصنيف النتيجة (ناجح / تحذير / فشل) النظام مبني على 300 سطر من كود بايثون، ويُمكن تشغيله عبر واجهة ويب باستخدام Gradio. يُمكن اختباره بدون مفتاح API عبر وضع تجريبي يُولّد بيانات افتراضية. النقطة المحورية؟ هذه التقنية لا تُقيّم النظر فقط، بل تُعيد تأطيره كأداة لرصد السلامة. في بيئة العمل، حيث يكون التشتت مهدّدًا مباشرًا للحياة، يصبح رصد النظر ليس مسألة تجربة مستخدم، بل مسألة حياة أو موت. الذكاء الاصطناعي لا يُعدّ فقط لفهم الكلام، بل لفهم ما يُراقب. وعندما تُرى العين، يُفهم الانتباه. وعندما يُفهم الانتباه، يُصبح العمل أكثر أمانًا.
في عالم التفاعل البشري مع الآلات، يُعد التحدي الأكبر هو إعادة إحياء القناة غير اللفظية التي تُعدّ حجر الزاوية في التواصل البشري: نظر العين. فبينما تُركّز معظم أنظمة التفاعل الصوتي على ما يُقال، تتجاهل بشكل كامل ما يُنظر إليه — رغم أن الابتسامة، والنظر، وحركة العين تُرسل رسائل أكثر من الكلمات. هذا الفجوة لا تؤثر فقط على جودة التفاعل، بل تُصبح خطيرة في بيئات العمل الخطرة مثل تشغيل شاحنات كاتربيلاير الثقيلة، حيث يعتمد السلامة على انتباه السائق. البحث العلمي يُثبت أن التقاء العينين يُشكّل مؤشرًا دقيقًا على التفاعل والانتباه المتبادل في المحادثات. عندما يلتقي نظري شخصين، يُفهم أن الانتباه مشترك، ويتدفق الحوار. أما عند انفصال النظر، فهذا يُشير إلى فقدان الانتباه — وهي إشارة لا تُخطئ. دراسات في PNAS وJournal of Nonverbal Behaviour تُظهر أن التحديق يحمل كمية أكبر من المعلومات الاجتماعية من النبرة أو الإيماءات، بل وحتى يُستخدم في تنظيم التبادل اللغوي: يُقلّل المتحدث من التحديق أثناء التفكير أو التوقف، ويعود إلى النظر مباشرة عند انتهاء جملته، ليُعلّم الآخر أنه حان دوره. لكن الأنظمة الذكية الحالية — مثل المساعدات الصوتية أو أنظمة التحكم في المركبات — لا تملك "وجهًا" ولا "عينين"، ما يجعلها عمياء أمام هذه الإشارات الحيوية. هذا يُشكّل فجوة خطيرة، خاصة في السياقات التي تتطلب انتباهًا دقيقًا. في هذا السياق، يأتي حل NVIDIA عبر تقنية Maxine Eye Contact، التي تُعيد توجيه نظر الشخص في الفيديو ليبدو وكأنه ينظر مباشرة إلى الكاميرا، حتى لو كان ينظر بعيدًا. المفتاح هنا لا يكمن في استخراج زاوية النظر مباشرة، بل في مراقبة مدى التصحيح الذي تقوم به الخوارزمية. إذا لم يُغيّر الفيديو المُعاد توجيهه شيئًا، فهذا يعني أن الشخص كان ينظر إلى الكاميرا. أما إذا تطلب التصحيح تغييرًا كبيرًا، فهذا يدل على انحراف النظر. استخدمت هذه المبدأ لبناء نموذج أولي لرصد السلامة، يُحلّل الفيديو بحثًا عن تغيرات في نظرة العين. النموذج يُنشئ مخرجات مُANNOTATED تشمل: حدودًا ملونة (أخضر عند الانتباه، أصفر عند الانحراف، أحمر عند انحراف شديد)، شريطًا تفاعليًا يُظهر تغيرات الانتباه عبر الزمن، وسجلًا تفصيليًا يُقدّم نسبة الانتباه، عدد الأحداث، وتصنيف النتيجة (ناجح، تحذير، فشل). التطبيق يعمل عبر واجهة ويب بسيطة (Gradio)، حيث يمكن رفع ملف فيديو، إدخال مفتاح API من NGC، ثم استقبال تقرير تفاعلي يُظهر مسار الانتباه. تم تضمين وضع تجريبي يُمكّن من اختبار الواجهة دون الحاجة إلى اتصال بالخادم. النظام يركز على الجزء العلوي من الوجه — الرأس والعينين — لاستبعاد تشويشات التشفير أو الحركات غير المرتبطة بالنظر. ويُعدّ الحدث مُسجلًا فقط إذا تجاوز حدًا معياريًا من التغير في البكسلات وامتد لفترة كافية، لاستبعاد الاهتزازات الناتجة عن اللمحات أو الblink. هذا المشروع يُظهر أن التكنولوجيا التي صُمّمت لتحسين التفاعل البشري في المحادثات، يمكن تكييفها لحماية حياة البشر في بيئات العمل الخطرة. فالعين، التي كانت أول وسيلة تواصل، تُصبح اليوم حجر الزاوية في تطوير أنظمة ذكية تُدرك ما يُنظر إليه، وتحمّل مسؤولية السلامة.
