Command Palette
Search for a command to run...

الملخص
تستند النماذج اللغوية الكبيرة (LLMs) بشكل متزايد على نمذجة السياق الطويل لمهام مثل فهم المستندات وتحليل الشيفرة والاستدلال متعدد الخطوات. ومع ذلك، فإن توسيع نافذة السياق إلى مستوى الملايين من الرموز (tokens) يُحدث تكاليف حسابية وذاكرة ضخمة، مما يحد من الجدوى العملية للنماذج اللغوية الكبيرة ذات السياق الطويل. في هذا العمل، نتبنى منظورًا مختلفًا – تكبير السياق البصري – لمواجهة هذه التحديات. بدلًا من تمديد التسلسلات القائمة على الرموز، نقترح إطارًا يُسمى "Glyph"، يحوّل النصوص الطويلة إلى صور ويُعالجها باستخدام نماذج اللغة والرؤية (VLMs). يُقلل هذا النهج بشكل كبير من حجم المدخلات النصية مع الحفاظ على المعلومات الدلالية، ونُصمم بعدها خوارزمية بحث وراثي مُشَغَّلة بالنموذج اللغوي (LLM) لتحديد التكوينات المثلى لعرض النصوص بصريًا، بهدف تحقيق توازن بين الدقة والانكماش. من خلال تجارب واسعة النطاق، نُظهر أن طريقةنا تحقق انكماشًا في عدد الرموز بنسبة 3 إلى 4 أضعاف، مع الحفاظ على دقة مماثلة للنماذج الريادية مثل Qwen3-8B على مختلف معايير السياق الطويل. كما أن هذا الانكماش يؤدي إلى تسريع عملية التعبئة (prefilling) والفك (decoding) بحوالي 4 أضعاف، وتسريع تدريب التعلم المُخصص (SFT) بحوالي 2 أضعاف. علاوةً على ذلك، في ظل ظروف انكماش شديد، يمكن لنموذج VLM بسياق 128K أن يمتد لمعالجة مهام تتعلق بنصوص بحجم ملايين الرموز. وبشكل إضافي، تُسهم البيانات النصية المُحَوَّلة بصريًا في مهام متعددة الوسائط الواقعية، مثل فهم المستندات. تم إتاحة الشيفرة النصية والنموذج على منصة GitHub عبر الرابط: https://github.com/thu-coai/Glyph.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.