HyperAIHyperAI

Command Palette

Search for a command to run...

عندما تتحدث الرموز كثيرًا: مراجعة لضغط الرموز الطويلة عبر الصور والفيديوهات والصوتيات

Kele Shao Keda Tao Kejia Zhang Sicheng Feng Mu Cai Yuzhang Shang Haoxuan You Can Qin Yang Sui Huan Wang

الملخص

لقد حققت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدمًا ملحوظًا، وغالبًا ما يُعزى هذا التقدم إلى قدرتها على معالجة سياقات أطول وأكثر تعقيدًا، مثل الصور ذات الدقة العالية، والتسلسلات الطويلة للفيديوهات، والبيانات الصوتية الطويلة. على الرغم من أن هذه القدرة تُعزز بشكل كبير قدرات نماذج MLLMs، إلا أنها تُحفّز تحديات حسابية كبيرة، ويرجع ذلك بشكل رئيسي إلى التعقيد التربيعي لآليات الانتباه الذاتي مع عدد كبير من الرموز (tokens). لتسهيل هذه العقبات، أصبحت ضغط الرموز (Token Compression) من الأساليب الواعدة والأساسية، حيث تُساهم في تقليل عدد الرموز بشكل كفء خلال التدريب والاستنتاج. في هذا المقال، نقدم أول مراجعة شاملة وتحليلًا متكاملًا للحقل المتزايد لضغط الرموز في السياقات الطويلة متعددة الوسائط.معترفين بأن الاستراتيجيات الفعّالة لضغط الرموز مرتبطة بشكل عميق بخصائص كل وسيلة وتكاثرها، نصنّف الطرق الحالية بناءً على تركيزها الرئيسي على البيانات، مما يسمح للباحثين بالوصول بسرعة إلى الأساليب المخصصة لمنطقة اهتمامهم: (1) ضغط الصور، الذي يعالج التكرار المكاني في البيانات البصرية؛ (2) ضغط الفيديوهات، الذي يتعامل مع التكرار المكاني والزمني في التسلسلات الديناميكية؛ و(3) ضغط الصوت، الذي يعالج التكرار الزمني والطيفي في الإشارات الصوتية. إلى جانب هذا التصنيف القائم على الوسيلة، نقوم أيضًا بتحليل الأساليب بناءً على الآليات الأساسية التي تعتمد عليها، بما في ذلك الأساليب القائمة على التحويل (transformation-based)، والأساليب القائمة على التشابه (similarity-based)، والأساليب القائمة على الانتباه (attention-based)، والأساليب القائمة على الاستفسار (query-based). من خلال تقديم عرض شامل ومُنظم، تهدف هذه المراجعة إلى تجميع الإنجازات الحالية، وتحديد التحديات الرئيسية، وتشجيع اتجاهات الأبحاث المستقبلية في هذا المجال المتغير بسرعة. كما نُحافظ على مستودع عام لمواكبة التطورات الأخيرة في هذا المجال الواعد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
عندما تتحدث الرموز كثيرًا: مراجعة لضغط الرموز الطويلة عبر الصور والفيديوهات والصوتيات | مستندات | HyperAI