ReAct: الكشف عن الإجراءات الزمنية باستخدام استفسارات ذات صلة

تهدف هذه الدراسة إلى تطوير الكشف عن الأفعال الزمنية (TAD) باستخدام إطار عمل مُشفِّر-مُفكِّك (encoder-decoder) يعتمد على استفسارات الأفعال، مشابهًا لنموذج DETR الذي أظهر نجاحًا كبيرًا في الكشف عن الكائنات. ومع ذلك، يعاني هذا الإطار من عدة مشكلات عند تطبيقه مباشرة على الكشف عن الأفعال الزمنية: استكشاف غير كافٍ للعلاقة بين الاستفسارات في الجزء المُفكِّك (decoder)، وتدريب غير كافٍ على التصنيف بسبب عدد محدود من العينات التدريبية، بالإضافة إلى درجات تصنيف غير موثوقة أثناء الاستنتاج (inference). ولحل هذه المشكلات، نقترح أولًا آلية انتباه علاقة (relational attention) في الجزء المُفكِّك، توجه الانتباه بين الاستفسارات بناءً على علاقاتها المتبادلة. علاوةً على ذلك، نقترح خسارةً مزدوجة لتسهيل واستقرار تدريب تصنيف الأفعال. وأخيرًا، نقترح التنبؤ بجودة تحديد موقع كل استفسار للعمل أثناء الاستنتاج، بهدف التمييز بين الاستفسارات عالية الجودة وذات الجودة المنخفضة. يُسمَّى النهج المقترح بـ "ReAct"، وقد حقق أداءً متقدمًا على مستوى الحالة (state-of-the-art) على مجموعة بيانات THUMOS14، وبتكاليف حوسبة أقل بكثير مقارنة بالأساليب السابقة. بالإضافة إلى ذلك، أجرينا دراسات تحليلية واسعة (ablation studies) لتأكيد فعالية كل مكوّن مُقترح. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/sssste/React.