في عصر الذكاء الاصطناعي، تتجه الأنظار نحو "نماذج العالم" — لكن كل من فاي-فاي لي ويان لكون يراها من زوايا مختلفة في لحظة واحدة، أصبحت مفاهيم مثل "نماذج العالم" حديث الشارع التكنولوجي، مع إطلاق شركة World Labs لمنتجها Marble، وتسريبات عن مغادرة يان لكون من ميتا لبناء شركة ناشئة مكرسة لنفس المفهوم. في المقابل، تُقدّم DeepMind نموذج Genie 3 كنوع من "نماذج العالم" التفاعلية. نفس المصطلح، ثلاث رهانات متميزة. ما الذي يُفسر هذا التمايز؟ الجواب يكمن في فهم ما المقصود بـ"العالم" في "نماذج العالم" — فالمصطلح، رغم بساطته، يغطي مساحات واسعة من التكنولوجيا، من توليد 3D إلى التفكير المعرفي. World Labs: نموذج العالم كمُدخل بصرى Marble، من تطوير World Labs، يُقدّم واجهة متكاملة: من نص أو صورة أو مقطع، يُولّد بيئة ثلاثية الأبعاد قابلة للتجول مباشرة في المتصفح. الميزة الأبرز؟ توليد "نماذج مسحية" (Gaussian Splatting) بسرعة مذهلة، تُعدّ بديلاً مبسطاً لعمليات توليد النماذج التقليدية. لكن Marble لا يُقدّم "نماذج عالم" في المعنى التفكيري. بل هو أداة لتصنيع محتوى 3D — مثالية لمن يصنع تطبيقات واقع افتراضي أو ألعاب. المُستخدم لا يُراقب "نظاماً داخلياً" يفهم الفيزياء، بل يُستمتع بمنظر مُحَوَّل من نص. مُعلقون على Hacker News وReddit يُشكون من هذا التباعد: - "هذا نموذج مسح 3D، ليس عقلاً آلياً." - "مُحَوَّل صور إلى بيئة 3D باستخدام تقنية مسح مبسطة، مُبهر، لكنه ليس نموذج عالم." فَمَنْ يُقصد بـ"نماذج العالم" فعلاً؟ هنا تظهر الفجوة. يان لكون: نموذج العالم كعقل داخلي لكون، بطل نظرية "الذكاء الاصطناعي التلقائي" (2022)، لا يتحدث عن صور جميلة أو بيئات قابلة للتجول. بل عن نظام داخلي يُمكنه التفكير بخطوات متقدمة، وفهم العلاقات بين الأحداث، والتنبؤ بالنتائج — دون الحاجة إلى إنتاج صور. نموذج JEPA (Joint Embedding Predictive Architecture) هو مثال عملي: لا يتنبأ بالبكسل، بل بالتمثيلات المخفية (embeddings)، ويُدرّب على أن تكون هذه التمثيلات مفيدة للتفكير، وليس فقط دقيقة بصرياً. إذا كان Marble يُنتج "محتوى"، فإن لكون يسعى لبناء "عقل" — نظاماً داخلياً يمكنه التفكير، التعلم، والتفاعل مع العالم بطريقة مُستمرة. DeepMind: نموذج العالم كمُحاكاة حية Genie 3 يُقدم نموذجاً تفاعلياً: من نص، يُولّد فيديو مُستمر بجودة 720p و24 إطاراً في الثانية، يمكن التحرك فيه، والتفاعل معه، والطلب بـ"تبدأ الأمطار" أو "انكسر الجدار". هذا ليس مجرد عرض، بل بيئة تُحاكي العالم — حيث تبقى الأشياء، وتُستجَب للإجراءات. يُستخدم لتدريب الروبوتات والوكالات الذكية في بيئات افتراضية قبل نقلها إلى العالم الحقيقي. ثلاثة تصورات، نفس المصطلح - نموذج العالم كواجهة: Marble — لتحويل النص إلى محتوى 3D يمكن تجوله. - نموذج العالم كمحاكاة: Genie 3 — لتدريب الوكالات في بيئة تفاعلية حية. - نموذج العالم كتفكير داخلي: لكون — لبناء تمثيل داخلي دقيق للعالم، يُمكّن الذكاء من التفكير قبل التصرف. الخلاصة: ما الذي يجب أن تبحث عنه عند قراءة "نماذج العالم"؟ - هل هذا لعرضه للبشر، أم لتدريب الوكالات؟ - هل يُخرِج صوراً ثابتة، أم فيديو مُستمر، أم تمثيلات داخلية؟ - إذا سقطت قارورة، هل يُذكَر في التمثيل لاحقاً؟ إذا كانت الإجابة "للمستخدم البشري"، "مُخرجات ثابتة"، "لا تذكّر"، فهذا ليس "نماذج عالم" في المعنى العميق، بل أداة مبهرة لتصنيع 3D. أما إذا كان يُخزّن المعرفة، ويدعم التفكير المُستمر، فربما نحن أمام ما يسعى إليه لكون — نموذج عالم حقيقي، لا يُرى، لكنه يعمل. الواقع أن كل من فاي-فاي لي، لكون، وDeepMind يبنون جوانب مختلفة من نفس الرؤية: تمكين الآلات من فهم العالم ليس كمجموعة كلمات، بل كعالم حيّ، قابل للتفاعل، والتفكير فيه. لكن المصطلح "نماذج العالم" لا يزال ضعيفاً في التمييز بين هذه الرؤى — مما يجعل السؤال الأهم ليس "هل هذا نموذج عالم؟"، بل "ما نوع العالم الذي يُبنى هنا؟"
في ظل تطور متسارع في مجال الذكاء الاصطناعي، أصبح مصطلح "نماذج العالم" (World Models) محور اهتمام عالمي، لكنه يحمل معاني متعددة حسب من يتحدث عنه. تُظهر التحركات الأخيرة لفي فاي فاي لي، يان لكون، وديب مايند أن هذا المصطلح لم يعد مجرد مفهوم نظري، بل أصبح مسرحًا لثلاثة توجهات مختلفة في بناء الذكاء الاصطناعي المتقدم. في المقدمة، تقدم شركة وورلد لابس، التي تُقودها في فاي فاي لي، منتج "ماربل" (Marble)، وهو أداة تحوّل النصوص أو الصور إلى مشاهد ثلاثية الأبعاد قابلة للتجول عبر المتصفح. تُقدّم الشركة هذا النظام كنموذج "عالم" يُمكّن المستخدمين من إنشاء عوالم ثلاثية الأبعاد تفاعلية بسهولة. لكن من الناحية التقنية، يعتمد "ماربل" على تقنية "النقطة الجاوسية" (Gaussian Splatting) لتقديم نماذج 3D مُشَكَّلة بسرعة، تُعدّ ببساطة أداة لتصنيع محتوى ثلاثي الأبعاد، لا أكثر. كما يُستخدم في تطوير ألعاب أو تطبيقات واقع افتراضي، لكنه لا يحتوي على تفكير داخلي أو تنبؤ بسلوك في بيئة ديناميكية. من ناحية أخرى، يُصوّر يان لكون، العلامة المميزة في عالم الذكاء الاصطناعي ورئيس العلماء في ميتا، "نماذج العالم" من منظور مختلف تمامًا. في بحثه "طريق نحو ذكاء آلي مستقل" (2022)، يُقدّم نموذجًا داخليًا يُشبه "دماغًا" يُخزّن معرفة عن العالم من خلال تنبؤات مُتعددة الخطوات، لا من خلال عرض صور جميلة. هذه النماذج، مثل نماذج JEPA، لا تهدف إلى إنتاج مشاهد مرئية، بل إلى تمكين الوكيل الذكي من التفكير قبل اتخاذ القرار، عبر تمثيلات خفية (Latent States) للعالم، مما يُعدّ خطوة نحو الذكاء الاصطناعي العام (AGI). أما دييب مايند، فتتخذ موقفًا متوسطًا عبر مشروع "جيني 3" (Genie 3)، الذي يُنتج بيئات تفاعلية على شكل فيديو بجودة 720 بكسل وبسرعة 24 إطارًا في الثانية، تتفاعل مع الأوامر المستمرة. يمكن للمستخدم أو وكيل ذكي التنقل داخل هذه البيئة، وتُحافظ على استمرارية الكائنات، ويمكنه حتى تفعيل حدث مثل المطر. هذه البيئة تعمل كمُحاكاة رقمية، تُستخدم لتدريب الروبوتات أو الوكلاء قبل استخدامهم في العالم الحقيقي، مما يجعلها نموذجًا للعالم كبيئة تدريب، وليس مجرد واجهة. إذًا، المصطلح نفسه يغطي ثلاث مفاهيم مختلفة: أولًا، نماذج العالم كواجهات بصرية (مثل ماربل)، ثانيًا، نماذج العالم كبيئات تدريب تفاعلية (مثل جيني 3)، وثالثًا، نماذج العالم كنماذج تنبؤية داخلية (مثل رؤية لكون). الفرق جوهري: ما يُقدّم في ماربل هو "مُخرج" بصري، أما ما يُخطط له لكون فهو "مُخزون داخلي" للتفكير. وديب مايند تُحاول الجمع بين الاثنين. الاستنتاج: "نماذج العالم" ليست مفهومًا واحدًا، بل مسارًا مُتعدد الاتجاهات. لفهم أي من هذه المبادرات يُعدّ "نماذج العالم" فعلاً، يكفي التساؤل: هل هذا النظام مُصمم لعرضه للإنسان؟ أم لتدريب الوكيل الذكي؟ وهل يُبقي الذاكرة عن الأحداث السابقة؟ الإجابة تُحدّد نوع النموذج. فما يُقدّم في ماربل قد يُعدّ "مُشاهدًا مُبهرًا" لـ3D، لكنه ليس "عقلًا" يفهم العالم. أما ما يُخطط له لكون، فربما لا يُظهر شيئًا في مقطع فيديو، لكنه قد يكون الأساس الحقيقي للذكاء الحقيقي.
