HyperAI

منذ 8 أشهر

كيف يمكن تحقيق القدرات الاستدلالية القوية في نماذج اللغات بطريقة تحقق أعلى كفاءة من حيث التكلفة؟ هذا السؤال يشكل أساس البحث الذي أدى إلى تطوير Tina، وهو مشروع يركز على إنشاء نماذج استدلالية صغيرة تتميز بأقل تكلفة ممكنة. تم تصميم Tina لتوضح إمكانية تحسين الأداء الاستدلالي بشكل كبير باستخدام موارد محدودة. البحث يركز على تطبيق تقنية التكيف ذو الرتبة المنخفضة (LoRA) على نموذج أساسي صغير به 1.5 مليار معلمة فقط، وذلك خلال عملية التعلم التعزيزي (RL). هذا النهج البسيط ينتج نماذج قادرة على المنافسة مع أفضل النماذج الحالية (SOTA) التي تعتمد على نفس النموذج الأساسي، بل وأفضل منها في بعض الحالات، مع تكلفة حسابية أقل بكثير. فقد حقق أفضل نموذج من Tina تحسنًا بنسبة تزيد عن 20% في الأداء الاستدلالي على مجموعة بيانات AIME24، وبلغت دقة المرور الأولى (Pass@1) 43.33%，مع أن تكلفة التدريب والتقييم الإجمالية لم تتجاوز 9 دولارات، أي بتخفيض تقدر نسبته 260 مرة مقارنة بالتكلفة المقدرة للنماذج SOTA الحالية. الدراسة أظهرت أيضًا أن استخدام LoRA في هذا السياق يُمكن من تحقيق التكيف السريع للنموذج مع هيكل الاستدلال المكافئ من قبل RL، مع الحفاظ على معظم المعرفة الأساسية للنموذج. تم اختبار هذه النتيجة عبر عدة مجموعات بيانات استدلالية مفتوحة المصدر وعبر سلسلة من التجارب الإقصائية، بدءًا من مجموعة ثابتة واحدة من المعلمات الأولية. لتيسير البحث المفتوح وتوفير الوصول السهل، تم إتاحة جميع الكود والسجلات التدريبية وأوزان النماذج والنقاط التحققية بشكل كامل ومجانًا للمجتمع العلمي. هذا القرار يهدف إلى تشجيع المزيد من التطوير والابتكار في مجال النماذج الصغيرة ذات القدرات الاستدلالية العالية.

الروابط ذات الصلة

Tina: Tiny Reasoning Models via LoRA - 智源社区论文

智源社区

HyperAI

منذ 8 أشهر

LLM

الاستدلال

معالجة اللغة الطبيعية

النهج/المعمارية

معالجة اللغة الطبيعية

مهمة

الروابط ذات الصلة

Tina: Tiny Reasoning Models via LoRA - 智源社区论文

智源社区

HyperAI

منذ 8 أشهر

LLM

الاستدلال

معالجة اللغة الطبيعية

النهج/المعمارية

معالجة اللغة الطبيعية

مهمة

الروابط ذات الصلة

Tina: Tiny Reasoning Models via LoRA - 智源社区论文

智源社区

تينا: نماذج تحليلية صغيرة بكostenفاعلية عالية باستخدام تقنية LoRA | القصص الشائعة | HyperAI

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

Command Palette

تينا: نماذج تحليلية صغيرة بكostenفاعلية عالية باستخدام تقنية LoRA

الروابط ذات الصلة

Command Palette

تينا: نماذج تحليلية صغيرة بكostenفاعلية عالية باستخدام تقنية LoRA

الروابط ذات الصلة

Command Palette

تينا: نماذج تحليلية صغيرة بكostenفاعلية عالية باستخدام تقنية LoRA

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".