تخفيف خسارة المعلومات التسلسلية من خلال التداخل البيانات ومقاسات الحزم الأولية

في مهام نمذجة التسلسل، يُعد ترتيب الرموز (tokens) مهمًا، لكن هذه المعلومة يمكن أن تُفقد جزئيًا بسبب عملية التجزئة التسلسلية إلى نقاط بيانات. في هذه الورقة، ندرس التوازن غير المتكافئ بين الطريقة التي تُدرج بها أزواج معينة من الرموز ضمن نقاط البيانات، مقارنةً بأزواج أخرى لا تُدرج. نُسمي هذا التوازن غير المتكافئ "انحياز ترتيب الرموز" (Token Order Imbalance - TOI)، ونربط بين فقدان المعلومات الجزئية المتعلقة بالتسلسل وانخفاض الأداء العام للنظام، سواء في مهام معالجة النصوص أو معالجة الصوت. ثم نقدّم آلية لاستغلال معلومات ترتيب الرموز بالكامل – تُعرف بـ"تخفيف TOI" – من خلال تداخل تكراري في تركيب الرموز بين نقاط البيانات. بالنسبة للشبكات التكرارية، نستخدم أعدادًا أولية لحجم الحزمة (batch size) لتجنب التكرار عند بناء الحزم من نقاط البيانات المتشابكة. وقد حققت الطريقة المقترحة أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في مهام تتعلق بالنصوص والصوت على حد سواء.