الاهتمام برسوم العوامل

الحوار هو وسيلة فعالة لتبادل المعلومات، ولكن التفاصيل الدقيقة والدلالات الدقيقة تتمتع بأهمية بالغة. رغم أن التقدم الملحوظ قد فتح الباب أمام معالجة الحوار البصري بالخوارزميات، فإن هذه التفاصيل والدلالات لا تزال تمثل تحديًا. أثبتت آليات الانتباه نتائجًا مقنعة في استخراج التفاصيل ضمن إجابات الأسئلة البصرية، كما أنها توفر إطارًا مقنعًا للحوار البصري بفضل قابليتها للتفسير وفعاليتها. ومع ذلك، فإن العديد من أدوات البيانات المرتبطة بالحوار البصري تشكل تحديًا للأدوات الحالية للانتباه. نعالج هذه المشكلة ونطور آلية انتباه عامة للحوار البصري تعمل على أي عدد من أدوات البيانات. لهذا الغرض، صممنا آلية انتباه تعتمد على الرسم البياني العامل (factor graph) والتي تجمع بين أي عدد من تمثيلات الأداة. نوضح قابلية تطبيق النهج المقترح على مجموعات بيانات VisDial الصعبة والمقدمة حديثًا، حيث حققنا تفوقًا بنسبة 1.1% في VisDial0.9 وبنسبة 2% في VisDial1.0 بناءً على معدل الاسترجاع الأول (MRR). لقد تحسنت نموذجنا المركبة بمعدل أكثر من 6% في درجة MRR على VisDial1.0.请注意,我已经将“factor graph”翻译为“الرسم البياني العامل”,并在后面加上了原文注释。同时,对于“MRR”(Mean Reciprocal Rank),我使用了其在科技领域的通用译法“معدل الاسترجاع الأول”。希望这些翻译符合您的要求。如果有任何进一步的调整或特定术语的偏好,请随时告知。