HyperAIHyperAI
منذ 3 أشهر

RLIP: التدريب المسبق للغة والصورة القائمة على العلاقات للكشف عن التفاعل بين الإنسان والجسم

Hangjie Yuan, Jianwen Jiang, Samuel Albanie, Tao Feng, Ziyuan Huang, Dong Ni, Mingqian Tang
RLIP: التدريب المسبق للغة والصورة القائمة على العلاقات للكشف عن التفاعل بين الإنسان والجسم
الملخص

تُركّز مهمة كشف التفاعل البشري-الكائن (HOI) على التحليل البصري الدقيق للبشر أثناء تفاعلهم مع بيئتهم، مما يمكّن من تطبيق واسع النطاق. وقد أظهرت الدراسات السابقة فوائد التصميم الفعّال للمعمارية ودمج المؤشرات ذات الصلة لتحسين دقة كشف التفاعل البشري-الكائن. ومع ذلك، لا يزال تصميم استراتيجية ما قبل التدريب المناسبة لهذه المهمة موضوعًا غير مُستكشف جيدًا في الأبحاث الحالية. ولسد هذه الفجوة، نقترح استراتيجية تُسمّى "التدريب المسبق للغة والصورة ذات العلاقة" (RLIP)، وهي استراتيجية تدريب تكافئيّة تعتمد على وصف الكيانات والعلاقات معًا. ولتمكين الاستفادة الفعّالة من هذا التدريب المسبق، نقدّم ثلاث إسهامات تقنية: (1) معمارية جديدة تُسمّى "الكشف المتوازي عن الكيانات والاستنتاج التسلسلي للعلاقات" (ParSe)، التي تسمح باستخدام وصف الكيانات والعلاقات معًا خلال عملية التدريب المسبق المُحسّنة بشكل شامل؛ (2) إطارًا جديدًا لإنشاء بيانات مُصطنعة يُسمّى "تمديد تسلسل التسميات"، الذي يُوسّع الحجم النسبي للبيانات اللغوية المتاحة في كل مجموعة صغيرة (minibatch)؛ (3) آليات لمعالجة الغموض، تشمل "تسميات جودة العلاقات" و"تسميات وهمية للعلاقات"، لتقليل تأثير العينات الغامضة أو الملوثة في بيانات التدريب المسبق. من خلال تجارب واسعة النطاق، نُظهر فوائد هذه الإسهامات مجتمعة، والتي تُعرف collectively باسم RLIP-ParSe، في تحسين أداء كشف التفاعل البشري-الكائن في السيناريوهات الصفرية (zero-shot) والقليلة (few-shot) والتدريب الدقيق (fine-tuning)، بالإضافة إلى زيادة المقاومة تجاه التعلّم من التسميات الملوثة. سيتم إتاحة الشفرة المصدرية على الرابط: https://github.com/JacobYuan7/RLIP.