آلات تورينغ الرموز

نُقدّم ما يُعرف بآلة تورينغ ذات الرموز (TTM)، وهي نموذج ترانسفورمر تسلسلي ومتسلسل ذاتيًا (autoregressive) يمتلك ذاكرة لفهم تسلسلي بصري حقيقي. يُستمد نموذجنا المُقترح من المفهوم الرائد لآلة تورينغ العصبية، ويتميز بذاكرة خارجية تتكون من مجموعة من الرموز التي تلخّص التاريخ السابق (أي الإطارات السابقة). تُعالج هذه الذاكرة بفعالية، وتُقرأ وتُكتب باستخدام نموذج ترانسفورمر كوحدة معالجة أو وحدة تحكم في كل خطوة. يضمن وحدة الذاكرة في النموذج أن يتم معالجة الملاحظة الجديدة فقط باستخدام محتويات الذاكرة (وليس التاريخ الكامل)، مما يعني أنه يمكنه معالجة التسلسلات الطويلة بكفاءة وبتكلفة حسابية محدودة في كل خطوة. ونُظهر أن نموذج TTM يتفوق على النماذج البديلة الأخرى، مثل النماذج الأخرى المبنية على ترانسفورمر لمعالجة التسلسلات الطويلة، والشبكات العصبية التكرارية، في مهامين واقعيتين لفهم التسلسلات البصرية: الكشف الزمني المباشر عن الأنشطة من مقاطع الفيديو، وتعلم سياسة إجراءات الروبوت القائمة على الرؤية.كود النموذج متاح للعامة عبر الرابط التالي: https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing