تُعدّ نموذج تونغي ديب ريسيرش من أبرز التطورات في مجال الذكاء الاصطناعي التوليدي، حيث يُقدّم نموذجًا بحثيًا عصبيًا قادرًا على التفكير والتحقيق المستقل، ويُظهر أداءً متفوّقًا على نماذج منافسة مثل OpenAI o3 وDeepResearch، رغم حجمه الصغير نسبيًا. يعتمد هذا النجاح على تبني منهجية تدريب مبتكرة تعتمد على البيانات المُصَنَّعة، ما يفتح آفاقًا جديدة لمستقبل تدريب النماذج الكبيرة للغة (LLMs). النموذج، الذي تم إطلاقه من قبل مختبر تونغي في Alibaba، يمتلك 30 مليار معلمة في إجماليه، لكنه يُفعّل فقط 3 مليار معلمة لكل رمز (token)، مقارنةً بنماذج منافسة مفتوحة المصدر مثل DeepSeek-v3.1 (671 مليار معلمة) وKimi Researcher (تتراوح بين 500 مليار إلى تريليون معلمة). هذا الفارق الهائل في الحجم يثير تساؤلات حول كيفية تحقيق أداء عالٍ بذكاء. الإجابة تكمن في التحول من النموذج التقليدي للتفكير التفاعلي (ReAct) إلى ما يُعرف بـ"نمط البحث العميق التكراري" (Iterative Deep Research Paradigm)، والذي يعتمد بشكل أساسي على تدريب النموذج على مسارات تفكير مُصَنَّعة بشكل اصطناعي. هذه المسارات تمثل تسلسلات من الأفعال والتأملات التي يمر بها نموذج ذكي عند إجراء بحث معقد عبر الإنترنت أو حل مسألة معقدة. يتم إنشاء هذه البيانات الاصطناعية عبر خطوتين رئيسيتين: أولًا، توليد الأفعال من الدرجة الأولى (First-Order Action Synthesis - FAS): يُحوّل المعرفة من شكل "معلومة مباشرة" مثل "باريس هي عاصمة فرنسا" إلى تمثيل مُرَكّز على الكيان (Entity), مثل: ("فرنسا": "وصل عدد الزوار السياحيين إلى فرنسا إلى 4.222 مليون في يونيو 2025"). هذا التمثيل يُمكّن النموذج من التفاعل مع معلومات حية ومتغيرة، ويُعزز قدرته على استخلاص معلومات من مصادر متعددة. ثانيًا، توليد الأفعال من الدرجة العليا (Higher-Order Action Synthesis - HAS): يُستخدم الذكاء الاصطناعي نفسه لخلق مجموعة من الاحتمالات التفكيرية أو الإجرائية في كل خطوة من خطوات البحث، دون التأثير على القرار النهائي (الذي يظل ثنائيًا). هذا يُمكّن النموذج من استكشاف مسارات بحث متعددة، مما يُحسّن دقة التفكير واتخاذ القرار. هذا النموذج يُبنى على منهجية تدريب متعددة المراحل تُعرف بـ"التدريب المستمر للنماذج العاملة" (Agentic Continual Pre-training)، حيث يُدرّب النموذج على مسافات سياقية متزايدة: أولاً على 32 ألف رمز، ثم على 128 ألف رمز، ما يُعزز قدرته على التفكير الطويل الأمد والتحليل المتعدد الخطوات. النتائج تُظهر أن هذا النهج لا يُقلل فقط من الحاجة إلى بيانات حقيقية ضخمة، بل يُسرّع من تطوير نماذج ذكية قادرة على الأداء الفائق في المهام المعقدة، مثل التحقق من المعلومات، التحليل الاستقصائي، وحل المشكلات الرياضية والعلمية. بفضل هذه التقنيات، يُعدّ تونغي ديب ريسيرش نموذجًا رائدًا في عصر التدريب على البيانات المُصَنَّعة، ويُرسّخ مفهومًا جديدًا: أن الذكاء الاصطناعي لا يُبنى فقط على معرفة موجودة، بل على قدرة على إنشاء مسارات بحثية ذكية ومتعددة، مما يُمكّنه من التفوّق في الكفاءة والدقة، حتى مع حجم نموذج محدود.
ما هو مستقبل تدريب النماذج اللغوية الكبيرة؟ أظهرت أحدث إنجازات مختبر تونغيي في شركة علي بابا تطورًا جوهريًا في هذا المجال، من خلال إطلاق نموذج بحثي عقلي يُسمى "تونغيي ديب ريسيرش" (Tongyi DeepResearch)، الذي تفوق في أداءه على نماذج رائدة مثل OpenAI o3 وDeepResearch، رغم أن حجمه الصغير نسبيًا — بحجم 30 مليار معلمة، مع تنشيط 3 مليارات معلمة فقط لكل رمز (token). هذا الأداء المتميز يثير تساؤلات حول كيفية تحقيقه، خاصةً مع تفوقه على نماذج ضخمة مثل DeepSeek v3.1 (671 مليار معلمة) وKimi Researcher (تريليون معلمة). الإجابة لا تكمن في التفوق التقني المفاجئ، بل في نهج تدريب مبتكر يعتمد على "البيانات المُولَّدة اصطناعيًا" ونمط تدريب متقدم يُعرف بـ"النمط البحثي العميق التكراري" (Iterative Deep Research Paradigm). هذا النموذج يُعد تطويرًا مُتَقَدِّمًا للنمط الأساسي ReAct، الذي يدمج التفكير والإجراءات، لكنه يُوسعه ليشمل توليد سيناريوهات بحثية متعددة عبر مراحل متعددة، مما يُمكّن النموذج من استكشاف حلول أكثر تعقيدًا وذكاءً. أحد الركائز الأساسية لهذا النموذج هو "تدريب الوكيل المستمر" (Agentic Continual Pretraining)، الذي يتضمن مرحلتين: الأولى تدريب مبدئي بطول سياق يصل إلى 32 ألف رمز، والثانية بطول 128 ألف رمز، مما يسمح للنموذج بمعالجة مهام معقدة تتطلب تذكّرًا وتحليلًا طويلًا. لدعم هذا التدريب، تم تطوير نوعين من توليد البيانات الاصطناعية: الأول هو "توليد الإجراءات من الدرجة الأولى" (FAS)، الذي يُنشئ مجموعات أسئلة وإجابات مبنية على كيانات حقيقية (مثل "فرنسا") بدلًا من معلومات مجمعة بشكل نمطي، مما يعزز دقة التمثيل المعرفي. والثاني هو "توليد الإجراءات من الدرجة العليا" (HAS)، الذي يُولّد في كل خطوة مجموعة من الاحتمالات الممكنة للقرارات باستخدام نماذج لغوية، دون التأثير على القرار النهائي، مما يُمكّن النموذج من استكشاف مسارات بحثية متعددة بشكل فعّال. هذا النهج لا يعتمد فقط على بيانات حقيقية، بل يُولّد بيانات بحثية اصطناعية مُصممة خصيصًا لتمرين النموذج على التفكير الاستراتيجي والتحليل العميق. الدراسات المرتبطة بهذا العمل، مثل "Webshaper" و"WebSailor-V2"، تُظهر كيف يمكن استخدام النماذج نفسها لتوليد سجلات بحثية متنوعة وواقعية، مما يُقلّل الاعتماد على البيانات الحقيقية المحدودة. بالتالي، يُعد تونغيي ديب ريسيرش نموذجًا يُجسّد عصرًا جديدًا في تدريب النماذج اللغوية الكبيرة، حيث يتحول التركيز من حجم النموذج إلى جودة البيانات التدريبية وفعالية نماذج التفكير. هذا التحول يفتح الباب أمام نماذج صغيرة لكنها ذكية، قادرة على المنافسة مع النماذج الضخمة، ويُشكّل خطوة كبيرة نحو تحقيق أبحاث ذكية مفتوحة المصدر، قادرة على التفكير والبحث بمستوى يشبه الإنسان.
