HyperAI

منذ 3 أيام

كشف مطور تقني عن خوارزمة مخصصة مكتوبة بلغة CUDA لتحسين خطوات الاسترجاع في أنظمة الذكاء الاصطناعي التوليدي المدعومة بالاسترجاع، بهدف القضاء على الاختناقات الناتجة عن النقل غير الضروري للبيانات عبر واجهة PCIe. يعتمد الهيكل المعماري التقليدي على إرسال متجهات الاستعلام من ذاكرة الفيديو إلى وحدة المعالجة المركزية لإجراء عمليات محاكاة التشابه ثم إعادة النتائج، مما يهدر دورات المعالج الرسومي ويستهلك وقت الانتظار بشكل مكلف. يقدم الحل المطور من قبل أنوبهاف بانرجي بقاء مجموعة البيانات المتجهية بالكامل داخل ذاكرة GPU، وتنفيذ عمليات حساب التشابه واختيار أفضل K نتيجة ودمجها مباشرة على الجهاز. تقتصر عملية النقل عبر الواجهة فقط على إرسال متجه الاستعلام الأولي واستلام المؤشرات والنتائج النهائية، مما يلغي تكاليف الدورة الكاملة. صُممت الخوارزمة لتكون خفيفة وقابلة للتدقيق، معتمدة على ترتيب محلي لكل كتلة مع دمج تسلسلي، وضمان تطابق رياضي دقيق مع معايير وحدة المعالجة المركزية عبر آلية حاسمة موحدة لكسر التعادلات. تم تخصيص الذاكرة مسبقًا أثناء التهيئة لتجنب أي تأخير أثناء المعالجة الساخنة. أظهرت الاختبارات المعيارية على بطاقة NVIDIA GTX 1080 عبر 45 تكوينًا مختلفًا لحجم المجموعة وأبعاد المتجهات وقيم K، تحقيق تسارع يصل إلى 8.57 مرة عند K=8، و7.76 مرة عند K=32 مع مجموعات بيانات ضخمة، مقارنة بأسس الحوسبة التقليدية. اعترف المطور بصراحة بأن الأداء ينحسر لصالح وحدة المعالجة المركزية عند K=100 بسبب القيود الخوارزمية المصممة للشفافية، مع وعد بتطوير بديل متخصص في المراحل المقبلة. يربط الكاتب بين هذه التقنية ومحاذاة الحزم في شبكات الجيل الخامس، مشيرًا إلى تشابهها الرياضي العميق في اختيار أفضل المسارات بناءً على معايير الاستقبال. يمثل هذا المشروع خطوة معمارية جوهرية لتطبيقات الوكلاء الذكيين متعددي الخطوات، حيث يحول الاسترجاع من عملية مقيدة بواجهة البيانات إلى عملية حسابية مقيمة على الجهاز نفسه. تفتح هذه النتيجة الطريق للمرحلة المقبلة من السلسلة التي ستعالج استمرارية حالة الوكيل عبر عمليات التناوب دون إعادة التهيئة الباردة. يتوفر الكود المصدري والمعايير التجريبية بشكل مفتوح المصدر للباحثين والمطورين.

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.