HyperAI

تُعدّ عملية التوليد التسلسلي للنصوص في النماذج اللغوية الكبيرة (LLMs) أحد أكبر العوائق التي تحدّ من سرعتها الفعلية، رغم التقدّم الهائل في الأجهزةhardware. في النماذج التقليدية، يُحمّل كل وزن نموذج من الذاكرة الرئيسية إلى ذاكرة GPU (VRAM) لكل كلمة يتم إنتاجها، مما يترك المعالج بلا عمل لفترات طويلة بينما ينتظر نقل البيانات، ما يُعدّ هدرًا كبيرًا للقدرة الحاسوبية. لحل هذه المشكلة، اقترح باحثو نيفيديا معملاً جديدًا يُسمّى TiDAR، أي "افكر بالانفجار، تكلّم بالتسلسل". يجمع هذا النموذج بين مزايا النماذج التسلسلية (Autoregressive) التي تضمن دقة عالية، والنماذج المتعددة التوقيت (Diffusion) التي تُنتج كلمات متعددة في وقت واحد، لتحقيق سرعة عالية دون التضحية بالجودة. يتم بناء المدخلات في TiDAR على هيكل ثلاثي: جملة سابقة، مسافات مخصصة للكلمات المُدرَّسة (مثل [MASK])، ثم مسودات كلمات من الجيل التالي. في المرحلة الأولى، يُستخدم جزء "التحدث" (التحقق التسلسلي) لفحص المسودات المُولّدة من قبل الجزء "التفكير" (المُدرّس بالانفجار). بفضل قناع الانتباه التسلسلي (Causal Mask)، يمكن للنموذج التحقق من عدة كلمات في نفس التمريرة الواحدة، مما يُقلّل عدد التمريرات المطلوبة من 5 إلى 1، ويُحرّك المعالج بشكل كامل. إذا كانت المسودة خاطئة، لا يُعاد تشغيل النموذج. بل يتم استبدال الكلمة الخاطئة بـ"الكلمة الأكثر احتمالاً" من التوزيع الناتج في نفس التمريرة، مع إزالة الكلمات التالية التي تعتمد على الكلمة الخاطئة. هذه "التصحيح الفوري" لا يُكلّف أي تأخير إضافي، ويضمن دقة الناتج مثل النموذج التسلسلي التقليدي. في الوقت نفسه، يُستخدم الجزء "التفكير" (المُدرّس بالانفجار) لملء المسافات المخصصة ([MASK]) باستخدام قناع ثنائي الاتجاه (Bidirectional Mask)، مما يسمح له بربط كل كلمة في الجملة السابقة بالمسافات المفتوحة، ويُولّد تسلسلاً متناسقًا ومقنعًا. هذا التفاعل المتواصل بين التفكير والتحقق يُبقي المعالج مشغولاً دائمًا، ويُحول العملية من تسلسلية إلى متوازية. أظهرت النتائج أن TiDAR يحقق زيادة كبيرة في السرعة، حيث يمكنه إنتاج ما يصل إلى 60 كلمة في تمريرة واحدة دون أي زيادة في التأخير، ما يعني أن التحميل من الذاكرة لا يزال هو العائق، وليس الحساب. هذا يُعدّ "مكسبًا مجانيًا" في الأداء، حيث يتم استغلال القدرة الحاسوبية بالكامل. مقارنةً بطرق مثل الاستنتاج التخميني (Speculative Decoding)، التي تعتمد على نموذج أصغر يُخطئ كثيرًا، فإن TiDAR يستخدم جزءًا موحدًا من النموذج نفسه، مما يُقلّل من الأخطاء ويُحسّن الجودة. كما يتفوّق في دقة التوليد مقارنة بالنماذج الانفجارية النقيّة، مع الحفاظ على سرعة التوليد. باختصار، يُعدّ TiDAR خطوة جوهرية نحو تجاوز الحدود التقليدية في توليد النصوص، حيث يدمج بين السرعة والدقة، ويُحول التحدي المتمثل في استغلال المعالجات بكفاءة إلى فرصة حقيقية للتقدم في الذكاء الاصطناعي.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

العائق الغريب في النماذج اللغوية الكبيرة الحديثة: كيف يُحدث TiDAR ثورة في سرعة وكفاءة الذكاء الاصطناعي

الروابط ذات الصلة

Command Palette

العائق الغريب في النماذج اللغوية الكبيرة الحديثة: كيف يُحدث TiDAR ثورة في سرعة وكفاءة الذكاء الاصطناعي

الروابط ذات الصلة

Command Palette

العائق الغريب في النماذج اللغوية الكبيرة الحديثة: كيف يُحدث TiDAR ثورة في سرعة وكفاءة الذكاء الاصطناعي

الروابط ذات الصلة