عندما تتحدث الرموز كثيرًا: مراجعة لضغط الرموز الطويلة عبر الصور والفيديوهات والصوتيات

لقد حققت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدمًا ملحوظًا، وغالبًا ما يُعزى هذا التقدم إلى قدرتها على معالجة سياقات أطول وأكثر تعقيدًا، مثل الصور ذات الدقة العالية، والتسلسلات الطويلة للفيديوهات، والبيانات الصوتية الطويلة. على الرغم من أن هذه القدرة تُعزز بشكل كبير قدرات نماذج MLLMs، إلا أنها تُحفّز تحديات حسابية كبيرة، ويرجع ذلك بشكل رئيسي إلى التعقيد التربيعي لآليات الانتباه الذاتي مع عدد كبير من الرموز (tokens). لتسهيل هذه العقبات، أصبحت ضغط الرموز (Token Compression) من الأساليب الواعدة والأساسية، حيث تُساهم في تقليل عدد الرموز بشكل كفء خلال التدريب والاستنتاج. في هذا المقال، نقدم أول مراجعة شاملة وتحليلًا متكاملًا للحقل المتزايد لضغط الرموز في السياقات الطويلة متعددة الوسائط.معترفين بأن الاستراتيجيات الفعّالة لضغط الرموز مرتبطة بشكل عميق بخصائص كل وسيلة وتكاثرها، نصنّف الطرق الحالية بناءً على تركيزها الرئيسي على البيانات، مما يسمح للباحثين بالوصول بسرعة إلى الأساليب المخصصة لمنطقة اهتمامهم: (1) ضغط الصور، الذي يعالج التكرار المكاني في البيانات البصرية؛ (2) ضغط الفيديوهات، الذي يتعامل مع التكرار المكاني والزمني في التسلسلات الديناميكية؛ و(3) ضغط الصوت، الذي يعالج التكرار الزمني والطيفي في الإشارات الصوتية. إلى جانب هذا التصنيف القائم على الوسيلة، نقوم أيضًا بتحليل الأساليب بناءً على الآليات الأساسية التي تعتمد عليها، بما في ذلك الأساليب القائمة على التحويل (transformation-based)، والأساليب القائمة على التشابه (similarity-based)، والأساليب القائمة على الانتباه (attention-based)، والأساليب القائمة على الاستفسار (query-based). من خلال تقديم عرض شامل ومُنظم، تهدف هذه المراجعة إلى تجميع الإنجازات الحالية، وتحديد التحديات الرئيسية، وتشجيع اتجاهات الأبحاث المستقبلية في هذا المجال المتغير بسرعة. كما نُحافظ على مستودع عام لمواكبة التطورات الأخيرة في هذا المجال الواعد.