الملخص

لقد حققت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدمًا ملحوظًا، وغالبًا ما يُعزى هذا التقدم إلى قدرتها على معالجة سياقات أطول وأكثر تعقيدًا، مثل الصور ذات الدقة العالية، والتسلسلات الطويلة للفيديوهات، والبيانات الصوتية الطويلة. على الرغم من أن هذه القدرة تُعزز بشكل كبير قدرات نماذج MLLMs، إلا أنها تُحفّز تحديات حسابية كبيرة، ويرجع ذلك بشكل رئيسي إلى التعقيد التربيعي لآليات الانتباه الذاتي مع عدد كبير من الرموز (tokens). لتسهيل هذه العقبات، أصبحت ضغط الرموز (Token Compression) من الأساليب الواعدة والأساسية، حيث تُساهم في تقليل عدد الرموز بشكل كفء خلال التدريب والاستنتاج. في هذا المقال، نقدم أول مراجعة شاملة وتحليلًا متكاملًا للحقل المتزايد لضغط الرموز في السياقات الطويلة متعددة الوسائط.معترفين بأن الاستراتيجيات الفعّالة لضغط الرموز مرتبطة بشكل عميق بخصائص كل وسيلة وتكاثرها، نصنّف الطرق الحالية بناءً على تركيزها الرئيسي على البيانات، مما يسمح للباحثين بالوصول بسرعة إلى الأساليب المخصصة لمنطقة اهتمامهم: (1) ضغط الصور، الذي يعالج التكرار المكاني في البيانات البصرية؛ (2) ضغط الفيديوهات، الذي يتعامل مع التكرار المكاني والزمني في التسلسلات الديناميكية؛ و(3) ضغط الصوت، الذي يعالج التكرار الزمني والطيفي في الإشارات الصوتية. إلى جانب هذا التصنيف القائم على الوسيلة، نقوم أيضًا بتحليل الأساليب بناءً على الآليات الأساسية التي تعتمد عليها، بما في ذلك الأساليب القائمة على التحويل (transformation-based)، والأساليب القائمة على التشابه (similarity-based)، والأساليب القائمة على الانتباه (attention-based)، والأساليب القائمة على الاستفسار (query-based). من خلال تقديم عرض شامل ومُنظم، تهدف هذه المراجعة إلى تجميع الإنجازات الحالية، وتحديد التحديات الرئيسية، وتشجيع اتجاهات الأبحاث المستقبلية في هذا المجال المتغير بسرعة. كما نُحافظ على مستودع عام لمواكبة التطورات الأخيرة في هذا المجال الواعد.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

عندما تتحدث الرموز كثيرًا: مراجعة لضغط الرموز الطويلة عبر الصور والفيديوهات والصوتيات

Kele Shao Keda Tao Kejia Zhang Sicheng Feng Mu Cai Yuzhang Shang Haoxuan You Can Qin Yang Sui Huan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

عندما تتحدث الرموز كثيرًا: مراجعة لضغط الرموز الطويلة عبر الصور والفيديوهات والصوتيات

Kele Shao Keda Tao Kejia Zhang Sicheng Feng Mu Cai Yuzhang Shang Haoxuan You Can Qin Yang Sui Huan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

عندما تتحدث الرموز كثيرًا: مراجعة لضغط الرموز الطويلة عبر الصور والفيديوهات والصوتيات

Kele Shao Keda Tao Kejia Zhang Sicheng Feng Mu Cai Yuzhang Shang Haoxuan You Can Qin Yang Sui Huan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters