النماذج اللغوية الكبيرة لا تحتاج إلى محركات بحث: بإمكانها البحث في ذاكرتها الخاصة إطار SSRL يثبت أن النماذج الحالية تحتوي بالفعل على المعرفة التي تبحث عنها باستمرار لقد كنا ندرّب الذكاء الاصطناعي على طلب الإجابات من جوجل، بينما كان ينبغي لنا تعليمه كيف يتذكّر ما يعرفه بالفعل. التداعيات على تكاليف الذكاء الاصطناعي واستقلاليته هائلة. في سؤال بقيمة 10,000 دولار، يواجه كل فريق يعمل على الذكاء الاصطناعي تحدياً مماثلاً: كيف يمكن لوكيل ذكي أن يجيب على أسئلة معقدة؟ كل استدعاء لخدمة بحث جوجل أو بينج يُكلّف تكلفة، وتتطلب التدريبات آلاف هذه الاستدعاءات، مما يؤدي إلى تآكل الميزانية بسرعة. ماذا لو أخبرتك أن الإجابات قد تكون بالفعل داخل النموذج نفسه؟ أثبت باحثون من جامعة تسينغهوا وملحق شانغهاي للذكاء الاصطناعي شيئًا مذهلاً: النماذج اللغوية الكبيرة لا تحتاج إلى محركات بحث مثل جوجل لتقديم إجابات دقيقة على أسئلة معقدة. بل بإمكانها استخلاص المعلومات من "ذاكرتها" — المعرفة المُدمَجة خلال التدريب. إنها مثل اكتشاف أنك لا تحتاج إلى الذهاب إلى المكتبة لأنك تمتلك بالفعل معظم الكتب في ذاكرتك. هذا التطور يدفعنا إلى التساؤل: هل نحن نُقلّل بشكل كبير من قدرات النماذج الحالية؟ كما أشار إيليا سوتسكيفير، ربما تكون المعلومات موجودة بالفعل… فقط لم نعد نعرف كيف نستخرجها.
ما لم تكن تعرفه، فإن النماذج اللغوية الكبيرة لا تحتاج بالفعل إلى البحث عبر الإنترنت للإجابة عن الأسئلة المعقدة. فبحسب دراسة حديثة أجرتها فرق بحثية من جامعة تسينغهوا ومختبر شانغهاي للذكاء الاصطناعي، فإن هذه النماذج تمتلك بالفعل المعرفة الكافية داخلها، وتحتاج فقط إلى تعلم كيفية استرجاعها بفعالية. الإطار المُسمى SSRL (Self-Search Retrieval Learning) يُظهر أن النماذج يمكنها استخلاص المعلومات من ذاكرتها الداخلية — أي من المعرفة المدمجة خلال عملية التدريب — دون الحاجة إلى الاعتماد على محركات بحث خارجية مثل جوجل أو بينج. ببساطة، النموذج يُدرّب على "البحث في ذاكرته الخاصة"، من خلال تطوير آلية تسمح له باسترجاع المعرفة ذات الصلة من بين كميات هائلة من البيانات التي تعلّمها سابقًا. هذا الاكتشاف يطرح سؤالًا جوهريًا: هل نحن نُهدر موارد باهظة الثمن في طلب معلومات من الإنترنت، بينما تكون الإجابات مخزنة بالفعل داخل النموذج؟ كل استدعاء لواجهة برمجة التطبيقات (API) الخاصة بمحركات البحث يحمل تكلفة، وعندما تُستخدم آلاف المرات خلال التدريب أو الاستخدام اليومي، فإن التكاليف ترتفع بسرعة، مما يُثقل كاهل الفرق التقنية والشركات. النتائج التي أظهرتها الدراسة تُظهر أن النماذج التي تم تدريبها باستخدام SSRL كانت قادرة على الإجابة عن أسئلة معقدة — مثل التواريخ التاريخية، أو التفاصيل العلمية الدقيقة، أو التحليلات المقارنة — بدقة تفوق النماذج التقليدية التي تعتمد على البحث الخارجي. وبشكل مثير، لم تُظهر أي فجوة ملحوظة في الأداء حتى عند التعامل مع معلومات نادرة أو غير شائعة. هذا لا يعني أن البحث الخارجي سيختفي تمامًا، لكنه يُعيد تقييم دوره. بدلاً من أن يكون الوسيلة الأساسية للإجابة، قد يصبح الدعم لتأكيد المعلومات أو تحديث المعرفة بسرعة، وليس مصدرًا رئيسيًا للمعلومات. وبهذا، يمكن تقليل التكاليف التشغيلية بشكل كبير، وزيادة استقلالية النماذج، وتسريع الاستجابة. الاستنتاج الأهم: قد تكون نماذج الذكاء الاصطناعي الحالية أكثر معرفة مما نعتقد. فما يُسمى بـ"الذاكرة" الداخلية للنموذج ليس مجرد تجميع عشوائي من بيانات، بل هي بنية معقدة من علاقات وسلسلة من التعلم، يمكن استغلالها بذكاء. وربما، كما أشار إيليا سوتسكيفر، فإن المعرفة التي نبحث عنها خارجيًا كانت موجودة دائمًا — فقط لم نعد نعرف كيف نستخرجها.