SepTr: تحويلة قابلة للانفصال لمعالجة طيف الصوت الصوتي

بعد النجاح الكبير لتطبيقات نماذج المحولات البصرية (Vision Transformers) في مهام متعددة في الرؤية الحاسوبية، اجتذبت هذه النماذج انتباه مجتمع معالجة الإشارات. وذلك لأن الإشارات غالبًا ما تمثل على شكل مخططات طيفية (Spectrograms) (مثلاً من خلال التحويل المتقطع للفورييه - Discrete Fourier Transform)، والتي يمكن تزويد نماذج المحولات البصرية بها مباشرة كمدخلات. ومع ذلك، فإن تطبيق المحولات على المخططات الطيفية بشكل مباشر ليس الأمثل. وبما أن المحاور تمثل أبعادًا مختلفة، أي التردد والزمن، نرى أن النهج الأفضل هو فصل الانتباه المخصص لكل محور على حدة. ولتحقيق ذلك، نقترح معمارية تُسمى "المحول القابل للانفصال" (Separable Transformer - SepTr)، والتي تعتمد على تسلسل كتلة محولين، حيث يركز الأول على الرموز داخل نفس الفترة الزمنية، بينما يركز الثاني على الرموز داخل نفس حزمة التردد. قمنا بإجراء تجارب على ثلاث مجموعات بيانات معيارية، وأظهرت النتائج أن معمارية الانفصال لدينا تتفوق على المحولات البصرية التقليدية وأساليب الحد الأقصى من التكنولوجيا الحالية. وعلى عكس المحولات القياسية، تزداد عدد المعلمات القابلة للتدريب في SepTr بشكل خطي بالنسبة لحجم المدخلات، مما يعني استهلاكًا أقل للذاكرة. يمكن الوصول إلى كودنا المفتوح المصدر من خلال الرابط التالي: https://github.com/ristea/septr.