HyperAI
Back to Headlines

ساكانا AI تطلق Text-to-LoRA: تقنية فورية لإنشاء مُكيفات محددة للمهام من خلال وصفها النصي

منذ 24 أيام

ملخص بحث Sakana AI: تكنولوجيا Text-to-LoRA (T2L) خلفية ومقدمة أحدث نماذج الـ Transformer تأثيرًا كبيرًا في كيفية معالجة أنظمة الذكاء الاصطناعي للمهام المرتبطة بالفهم اللغوي، الترجمة، والمنطق. ومع زيادة حجم وتعقيد هذه النماذج، خاصة النماذج اللغوية الكبيرة (LLMs)، أصبحت تغطي مجالات متنوعة. ومع ذلك، تظل مسألة تطبيق هذه النماذج على مهام جديدة متخصصة أمرًا معقدًا يتطلب اختيار بيانات دقيقة، ساعات من التعديل الدقيق، وقدرة عالية من الحوسبة. تحديات تخصيص LLMs لمهام جديدة التحدي الرئيسي يكمن في تكيف النماذج الأساسية مع التطبيقات الفريدة دون الحاجة إلى تكرار دورة التدريب الباهظة والمتعبة. غالبًا ما تعتمد الحلول الحالية على إنشاء مُعدِّلات (adapters) جديدة لكل مهمة، وهي مكونات منفصلة يتم تدريبها لتوجيه سلوك النموذج. يجب إنشاء هذه المُعدِّلات من الصفر لكل مهمة، ولا يمكن نقل الفوائد المكتسبة من تطبيق إلى آخر بسهولة. هذا العملية تستغرق وقتًا طويلاً وتفتقر إلى القابلية للتوسع. بالإضافة إلى ذلك، يتطلب تعديل النماذج على مجموعات بيانات محددة درجة عالية من الدقة في اختيار المعلمات الفائقة (hyperparameters)، وفشل الوصول إلى التكوين المناسب قد يؤدي إلى نتائج سيئة. حتى عند النجاح، تكون النتيجة غالبًا مجموعة كبيرة من المكونات الخاصة بالمهام التي يصعب دمجها أو إعادة استخدامها. حل Sakana AI: تقنية Text-to-LoRA (T2L) لتجاوز هذه التحديات، طور باحثو Sakana AI تقنية Text-to-LoRA (T2L)، وهي منهجية تسمح بإنشاء مُعدِّلات خاصة بالمهام بناءً على وصف النص للمهمة المستهدفة، بدلاً من إنشاء وتدريب مُعدِّلات جديدة لكل مهمة. يعمل T2L كشبكة فرعية فائقة (hypernetwork) قادرة على إنتاج وزنات المُعدِّلات في مرور واحد للأمام. يتعلم النظام من مكتبة من المُعدِّلات الموجودة مسبقًا والتي تغطي مجالات مختلفة مثل GSM8K، Arc-challenge، BoolQ وغيرها. بمجرد التدريب، يمكن لـ T2L فهم وصف المهمة وإنشاء المُعدِّل المطلوب دون الحاجة إلى تدريب إضافي. هذا القدرة تُلغي الحاجة إلى إنشاء مُعدِّلات يدوية وتجعل النظام قادرًا على التعامل مع مهام لم يسبق له رؤيتها. هندسة T2L يتكون تصميم T2L من مزيج من التضمينات الخاصة بالوحدات (module-specific embeddings) والتضمينات الخاصة بالطبقات (layer-specific embeddings) لتسهيل عملية الإنشاء. تم اختبار ثلاثة نماذج هندسية من T2L: نموذج كبير يحتوي على 55 مليون معلمة، نموذج متوسط يحتوي على 34 مليون معلمة، ونموذج صغير يحتوي على 5 ملايين معلمة. رغم الاختلافات في الحجم، كان جميع النماذج قادرة على إنتاج المصفوفات منخفضة الرتبة (low-rank matrices) اللازمة لوظيفة المُعدِّلات. استخدمت عملية التدريب مجموعة بيانات Super Natural Instructions عبر 479 مهمة، حيث تم وصف كل مهمة بلغة طبيعية وتحويلها إلى شكل متجهي. من خلال دمج هذه الوصفات مع التضمينات المُتعلَّمة للطبقات والوحدات، يقوم T2L بإنشاء المصفوفات منخفضة الرتبة أ و ب اللازمتين لوظيفة المُعدِّلات. هذا يجعل نموذج واحد قادرًا على استبدال مئات المُعدِّلات المُصَنعَة يدويًا، مما ينتج عنه نتائج متسقة مع أثر حوسي أصغر بكثير. أداء T2L وقابلية التوسع في مقاييس الأداء مثل Arc-easy و GSM8K، تمكن T2L من تحقيق أو تجاوز أداء المُعدِّلات الخاصة بالمهام. على سبيل المثال، حققت دقة 76.6% على Arc-easy، مطابقة لأفضل مُعدِّل تم ضبطه يدويًا. وعلى BoolQ، بلغت الدقة 89.9%,تفوقًا قليلاً على المُعدِّل الأصلي. حتى في المقاييس الأكثر صعوبة مثل PIQA و Winogrande، حيث غالبًا ما يضر الانحياز الزائد بالأداء، أدى T2L إلى نتائج أفضل من المُعدِّلات المُدربة يدويًا. يُعزى هذه التحسينات إلى الضغط الخساري (lossy compression) المتأصل في تدريب الشبكات الفرعية الفائقة، والذي يعمل كشكل من أشكال التنظيم. عند زيادة عدد مجموعات البيانات للتدريب من 16 إلى 479، تحسنت الأداء بشكل كبير في الإعدادات بدون أي تدريب مسبق، مما يظهر قدرة T2L على التعميم مع التعرض الأوسع أثناء التدريب. نقاط رئيسية من البحث التكيف الفوري: يسمح T2L بتكيف LLMs باستخدام فقط وصف النص للمهمة. ال-Generalization بدون تدريب مسبق: يدعم التعميم للمهام التي لم يتم رؤيتها أثناء التدريب. النماذج الهندسية: تم اختبار ثلاث نماذج هندسية من T2L تحتوي على 55 مليون، 34 مليون، و5 ملايين معلمة. مقاييس الأداء: تشمل Arc-easy، BoolQ، GSM8K، Hellaswag، PIQA، MBPP وغيرها. الأداء: حققت T2L دقة 76.6% على Arc-easy، 89.9% على BoolQ، و92.6% على Hellaswag. مطابقة أو تفوق: وصلت إلى مستوى الأداء المقارن أو تفوقت على المُعدِّلات المُدربة يدويًا في عدة مهام. تدريب: تم استخدام 479 مهمة من مجموعة بيانات Super Natural Instructions. التضمينات: يستخدم T2L نموذج gte-large-en-v1.5 لإنشاء تضمينات المهمة. المُعدِّلات: يتم إنتاج مُعدِّلات LoRA بواسطة T2L تستهدف فقط مشاريع الاستعلام والقيمة في كتل الانتباه (attention blocks)، بإجمالي 3.4 مليون معلمة. القوة ضد الضغط: ظل الأداء ثابتًا حتى مع زيادة خسارة الإعادة (reconstruction loss)، مما يدل على قوة النظام ضد الضغط. الخلاصة يشير هذا البحث إلى خطوة كبيرة نحو التكيف المرن والفعال للنماذج. بدلاً من الاعتماد على الإجراءات المتكررة والاستهلاكية للموارد، يستخدم T2L اللغة الطبيعية نفسها كآلية تحكم، مما يتيح للنماذج التخصص باستخدام وصف المهام البسيط. هذه القدرة تقلل بشكل كبير من الوقت والتكلفة المطلوبة لتكيف LLMs مع مجالات جديدة. كما أنها تشير إلى أن طالما كانت هناك مُعدِّلات سابقة كافية للتدريب، يمكن للنماذج المستقبلية التكيف في ثوانٍ لأي مهمة موصوفة باللغة الإنجليزية البسيطة. استخدام الشبكات الفرعية الفائقة لإنشاء المُعدِّلات ديناميكيًا يعني أيضًا الحاجة إلى أقل تخزين للمُعدِّلات المتخصصة، مما يزيد من جدوى هذا الأسلوب في البيئات العملية. تعليقات من المتخصصين يُعتبر تطور T2L خطوة هامة نحو تسهيل عملية تخصيص النماذج اللغوية الكبيرة. يرى العديد من الخبراء أن هذه التقنية ستغير وجه التطوير في مجال الذكاء الاصطناعي، حيث تقلل من الحاجة إلى خبراء متخصصين في تدريب النماذج وتُسرِّع العملية بشكل كبير. هذا التقدم يفتح الباب أمام تطبيقات جديدة ومبتكرة في مجالات مثل التعليم، الرعاية الصحية، والتجارة الإلكترونية، حيث تتطلب هذه المجالات تكيفًا سريعًا ومرنًا للنماذج اللغوية. نبذة عن Sakana AI Sakana AI هي شركة رائدة في مجال الذكاء الاصطناعي تركز على تطوير تقنيات مبتكرة لتحسين كفاءة وقابلية التوسع للنماذج اللغوية الكبيرة. من خلال بحوثها المستمرة، تسعى الشركة إلى جعل الذكاء الاصطناعي أكثر قربًا من القدرات البشرية في التكيف والتخصص. تُعد تقنية T2L واحدة من أهم الإنجازات التي ساهمت في تعزيز مكانة الشركة في السوق التكنولوجي.

Related Links