HyperAIHyperAI
منذ 18 أيام

التعلم التبايني من الخشنة إلى الدقيقة في الفضاء الصورية-النصية-الرسمية لتحسين التراكيب البصرية-اللغوية

Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen
التعلم التبايني من الخشنة إلى الدقيقة في الفضاء الصورية-النصية-الرسمية لتحسين التراكيب البصرية-اللغوية
الملخص

لقد حققت نماذج الرؤية واللغة التي تم تدريبها بشكل متناقض تقدماً ملحوظاً في تعلم التمثيلات البصرية واللغوية، مما أدى إلى ظهور نماذج رائدة في مجالات متعددة من المهام متعددة الوسائط. ومع ذلك، أبرزت أبحاث حديثة قيوداً جسيمة في قدرة هذه النماذج على إجراء استدلالات تراكيبية حول الكائنات والخصائص والعلاقات. وقد ظهرت رسومات المشهد (Scene Graphs) كوسيلة فعالة لفهم الصور من منظور تراكبي. إذ تمثل هذه الرسوم تمثيلات دلالية ذات هيكل رمزي يحتوي على الكائنات وخصائصها والعلاقات بينها في مشهد معين. في هذا العمل، ننظر إلى رسم المشهد المستخلص من النص كتمثيل محاكٍ لرسم مشهد الصورة، ونُقدّم إطاراً لتفكيك الرسم وتعزيزه، إلى جانب هدف تعلم متناقض من مستوى خشن إلى دقيق بين الصور والنصوص، يُوجّه الجمل ذات التعقيدات المختلفة إلى نفس الصورة. إلى جانب ذلك، نقترح تقنيات جديدة لاستخراج السلبيات في فضاء رسم المشهد، بهدف تحسين ربط الخصائص وفهم العلاقات. من خلال تجارب واسعة النطاق، نُظهر فعالية نهجنا، الذي يُحسّن بشكل ملحوظ ربط الخصائص، وفهم العلاقات، والعمومية النظامية، والإنتاجية على عدة معايير حديثة تم اقتراحها (مثلاً، تحسين يصل إلى 18٪ في العمومية النظامية، و16.5٪ في فهم العلاقات مقارنة بقاعدة قوية)، مع تحقيق أداء مشابه أو أفضل من نموذج CLIP في مهام متعددة الوسائط العامة.