HyperAIHyperAI
Back to Headlines

إعادة صياغة الوثائق الإلكترونية كبيانات اصطناعية تُعدّ حلًا واعدًا لتحدي نقص بيانات التدريب في الذكاء الاصطناعي أطلقت شركة داتولوجي أيه آي إطار عمل جديد يُسمى "بِيوند ويب" (BeyondWeb)، يعتمد على بيانات اصطناعية مُعاد صياغتها لتدريب النماذج اللغوية الكبيرة، في محاولة لمواجهة التحديات المتزايدة في توافر بيانات التدريب عالية الجودة. يُعدّ هذا النهج أكثر كفاءة من الطرق التقليدية، ويُظهر نتائج ملموسة في دقة النماذج وسرعة التدريب. مع ارتفاع ميزانيات تدريب النماذج الكبيرة إلى تريليونات الرموز (tokens)، أصبحت بيانات الويب ذات الجودة العالية أكثر ندرة، ما يشكل ما وصفته داتولوجي أيه آي بـ"جدار البيانات" – التحدي المركزي في تطوير الذكاء الاصطناعي الحديث. وتمثّل بِيوند ويب حلًا يعيد هيكلة الوثائق الإلكترونية الحالية لجعلها أكثر كثافة معلوماتية، وتحسين نبرتها التربوية، وتنظيم محتواها ليناسب تدريب النماذج بشكل أكثر فعالية. أظهرت النتائج أن بِيوند ويب يرفع دقة النماذج ذات 8 بليون معلمة بنسبة 5.1 نقطة مئوية مقارنة ببيانات كوزموبيديا من هابينغ فايس، وبنسبة 2.6 نقطة مئوية على مقارنة مع بيانات نيفيديا نيموترون-سي سي. وقد تم قياس هذه الأرقام على 14 معيارًا شهيرًا في بيئات التدريب بدون أمثلة (0-shot) وبنموذج مبني على خمس أمثلة (5-shot). الأداء الأسرع هو أحد الميزات البارزة: إذ تدرب النماذج على بِيوند ويب بسرعة 7.7 مرة مقارنة بالبيانات المفتوحة من الويب، و2.7 مرة أسرع من نيموترون سينث. في تجربة واحدة، تفوق نموذج بحجم 3 بليون معلمة مدرب على بِيوند ويب على نموذج بحجم 8 بليون معلمة مدرب على كوزموبيديا، باستخدام نفس ميزانية التدريب. بعد 66 بليون رمز، وصلت دقة النموذج إلى 64%، متفوقة على نموذج ريدباجاما بـ7.7 مرة، ونيموترون سينث بـ2.7 مرة. أظهرت الدراسة أيضًا أن التنويع في نمط الكتابة ضروري للتقدم المستدام. فبينما قد تُسهم الطرق التقليدية في بدايات التدريب، فإن نقص التنويع الأسلوبي يؤدي إلى عائدات متراجعة مع الوقت. كما كشفت الدراسة أن النصوص التفاعلية (المحادثات) تمثل أقل من 2.7% من بيانات الويب، رغم أن الاستخدام الرئيسي للنماذج اللغوية الكبيرة هو التفاعل عبر المحادثات، ما يشير إلى فجوة كبيرة في البيانات. في اختبارات حجم النماذج، وجد الباحثون أن النماذج الصغيرة قادرة على إنتاج بيانات اصطناعية عالية الجودة. إذ ارتفعت جودة البيانات بنسبة 1.5 نقطة مئوية عند الانتقال من نموذج بحجم 1 بليون معلمة إلى 3 بليون، لكن التحسن توقف عند 8 بليون. ما يوحي بأن الفرق الصغيرة يمكنها توليد بيانات قوية دون الحاجة إلى موارد ضخمة. كما أظهرت الدراسة أن نوع النموذج المستخدم لإعادة صياغة النصوص لا يُحدد جودة البيانات الناتجة، إذ كانت النتائج متشابهة عبر عائلات مختلفة من النماذج. تم بالفعل استخدام بِيوند ويب لتدريب نموذج AFM بحجم 4.5 بليون معلمة من قبل شركة أرسي أيه آي، حيث أنشأت داتولوجي أيه آي نظامًا قابلاً للتوسع لمعالجة تريليونات الرموز. ورغم نجاحها، فإن الإطار لا يزال غير متوفر للبحث المجاني. في ديسمبر 2024، أظهرت مايكروسوفت إمكانات البيانات الاصطناعية من خلال نموذج فيث-4، الذي تم تدريبه على 400 بليون رمز من بيانات اصطناعية ذات نمط "كتاب مدرسي"، مع استخدام "رموز محورية" لتحسين التعلم. ورغم نتائجه القوية في الاختبارات، فإن تقييمه في الاستخدام الفعلي كان مختلطاً. قبل ذلك بستة أشهر، أطلقت نيفيديا نيموترون-4 340 بليون، وهي أداة مفتوحة المصدر لتصنيع بيانات اصطناعية، حيث تم إنتاج 98% من بيانات التدريب للنموذج الموجه (Instruct) بشكل اصطناعي. وفي نفس الوقت، نُفّت نظرية "انهيار النموذج" الشهيرة، مبينة أن البيانات الاصطناعية يمكن أن تدفع تقدم الذكاء الاصطناعي إذا تم استخدامها بذكاء. كما كشفت OpenAI أثناء إعلانها عن GPT-5 أن النموذج تم تدريبه باستخدام بيانات اصطناعية، على الأرجح من إنتاج نموذجها الداخلي o3. بينما تستخدم شركات كثيرة البيانات الاصطناعية لتقليل التكاليف، أكدت OpenAI أنها تركز على تجهيز البيانات بدقة لتمكين التعلم الحقيقي، وليس مجرد سد الفجوات. وشرح سيباستيان بوبك، الذي قاد مشروع فيث في مايكروسوفت، هذه الفلسفة بوضوح.

منذ 9 ساعات

تواجه نماذج الذكاء الاصطناعي تحديًا متزايدًا في توفر بيانات تدريب عالية الجودة، ما دفع شركة داتولوجيا آي (Datology AI) إلى إطلاق إطار عمل جديد يُسمى "بِيْوند ويب" (BeyondWeb)، الذي يعتمد على بيانات اصطناعية مُعاد صياغتها لتحسين كفاءة تدريب النماذج اللغوية. يُعد هذا الإطار حلًا واعدًا لمواجهة ما وصفته الشركة بـ"جدار البيانات"، أي التحدي المتمثل في ندرة البيانات الويبية الجيدة رغم ارتفاع ميزانيات التدريب إلى تريليونات الرموز. يُعيد بِيْوند ويب إعادة هيكلة الوثائق الويبية الحالية لتكون أكثر كثافة بالمعلومات، وتحسين نبرتها التعليمية، وتنظيمها بطريقة تُعزز فعالية التدريب. وفقًا للشركة، يحقق الإطار مكاسب كبيرة في الأداء: زيادة دقة النماذج ذات 8 مليار معلمة بنسبة 5.1 نقطة مئوية مقارنة ببيانات "كوسموبيديا" من هابينغ فايت، وبنسبة 2.6 نقطة مئوية مقارنة ببيانات "نيميترون-سي سي" من نيفيديا، وذلك على 14 معيارًا شائعًا في بيئات التدريب بدون نماذج (0-shot) وبنماذج محدودة (5-shot). وأظهرت الاختبارات أن التدريب باستخدام بِيْوند ويب أسرع بنسبة 7.7 مرة من البيانات الويبية المفتوحة، و2.7 مرة من بيانات "نيميترون سينث" (Nemotron Synthetic). وفي تجربة مثيرة، حقق نموذج بحجم 3 مليار معلمة تدريبًا باستخدام بِيْوند ويب أداءً أفضل من نموذج بحجم 8 مليار معلمة تدرب على بيانات "كوسموبيديا"، مع نفس حجم البيانات المستخدمة. أظهرت الدراسة أيضًا أن التعددية في الأسلوب أمر بالغ الأهمية لاستمرار التطور، حيث أن الطرق التقليدية تُظهر نتائج جيدة في المراحل المبكرة، لكنها تفقد فعاليتها مع تكرار استخدامها. كما لاحظ الباحثون أن المحتوى التفاعلي (المحادثات) يشكل أقل من 2.7% من البيانات الويبية، رغم أن المحادثة هي الاستخدام الرئيسي للنماذج اللغوية، ما يبرز حاجة لزيادة هذا النوع من البيانات، رغم أن فوائده تبدأ في التباطؤ بسرعة. أظهرت التجارب أن النماذج الصغيرة (مثل تلك ذات 1 إلى 3 مليار معلمة) قادرة على إنتاج بيانات اصطناعية عالية الجودة، حيث ارتفعت جودة البيانات بنسبة 1.5 نقطة مئوية عند الانتقال من 1 إلى 3 مليار معلمة، بينما توقف التحسن عند 8 مليار معلمة. هذا يشير إلى إمكانية لشركات صغيرة أو مشاريع بسيطة لإنشاء بيانات تدريب فعالة دون الحاجة إلى نماذج ضخمة. كما وجد الباحثون أن أنواع النماذج المختلفة المستخدمة لإعادة صياغة النصوص تُنتج نتائج مشابهة في الجودة، ما يعني أن أداء النموذج في الاختبارات لا يتنبأ بجودة البيانات التي يُنتجها. تم استخدام بِيْوند ويب بالفعل لتدريب النموذج "AFM" من شركة أرسي آي (ArceeAI) بحجم 4.5 مليار معلمة، عبر أنبوب تدريب قابل للتوسع يُعالج تريليونات الرموز. ورغم النجاح، فإن الإطار غير متاح حاليًا للاستخدام البحثي المجاني. في السياق الأوسع، أظهرت شركات كبرى مثل مايكروسوفت (بـPhi-4)، ونيفيديا (بـNemotron-4 340B)، وآبل (في إشارة ضمنية إلى GPT-5) استخدام البيانات الاصطناعية كأداة رئيسية في تطوير نماذجها. ورغم أن بعض الشركات تستخدمها لتقليل التكاليف، فإن آبل أشارت إلى أن تركيزها على جودة التحضير وليس فقط التكثيف، ما يعكس توجهًا أكثر تقدمًا نحو "التعلم الحقيقي" من خلال البيانات الاصطناعية.

Related Links