HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 12 أيام

انظر النص: من التجزئة إلى القراءة البصرية

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

الملخص

يُدرك الإنسان النصوص من خلال رؤية الكلمات ككائنات بصرية، بما في ذلك أشكالها وترتيبها وأنماطها، قبل ربطها بالمعنى، ما يمكّننا من التعامل بكفاءة مع الأخطاء الإملائية، والخطوط المشوهة، واللغات المختلفة. لكن النماذج اللغوية الكبيرة الحديثة (LLMs) تعتمد في المقابل على تقسيم النص إلى وحدات فرعية (subword tokenization)، حيث يتم تجزئة النص إلى أجزاء من مخزون مفردات ثابت. وعلى الرغم من فعاليتها في اللغات ذات الموارد العالية، فإن هذا النهج يؤدي إلى تجزئة مفرطة في اللغات ذات الموارد المنخفضة، مما ينتج تسلسلاً طويلاً من الوحدات غير المعنوية لغويًا، ويزيد من حجم الحسابات الحسابية. في هذا العمل، نتحدى هذا النموذج المُرسخ وننتقل نحو بديل متمحور حول الرؤية. نُقدّم منهجية تُسمى "سيتوك" (SeeTok)، تُحوّل النصوص إلى صور (نص بصري)، وتعتمد على النماذج اللغوية الكبيرة متعددة الوسائط المُدرّبة مسبقًا لفهم هذه الصور، مع إعادة استخدام القدرات القوية في التعرف البصري على النص (OCR) والتماسك بين النص والصورة، التي تعلّمت من التدريب الواسع النطاق على البيانات متعددة الوسائط. في ثلاث مهام لغوية مختلفة، تُحقق "سيتوك" أداءً مماثلاً أو أفضل من تقسيم الوحدات الفرعية، مع تقليل عدد الرموز (tokens) بنسبة 4.43 مرة، وتقليل عدد العمليات الحسابية (FLOPs) بنسبة 70.5%، إضافةً إلى تحسينات ملحوظة في القدرة على التعميم بين اللغات، ومقاومة الضوضاء المطبوعية، والتمثيل الهرمي للغة. تُشير "سيتوك" إلى تحول من التجزئة الرمزية إلى قراءة بصرية تشبه القراءة البشرية، وتمهّد الطريق نحو نماذج لغوية أكثر طبيعية ومستوحاة من العمليات المعرفية البشرية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
انظر النص: من التجزئة إلى القراءة البصرية | الأوراق البحثية | HyperAI