مساحة معنوية مشتركة متعددة المستويات وأشكال التعبير للربط بين الصور والعبارات

نعالج مشكلة تثبيت الجمل من خلال تعلم مساحة سémانكية مشتركة متعددة المستويات بين الوسيلتين النصية والبصرية. نستغل مستويات متعددة من خرائط الميزات لشبكة عصبية تقنية التحويل العميقة، بالإضافة إلى تمثيلات الكلمات والجمل السياقية المستخرجة من نموذج لغوي يعتمد على الحروف. بعد تطبيق عمليات التعيين غير الخطية المخصصة لميزات الصور في كل مستوى، وتمثيلات الكلمات والجمل، نحصل على عدة تجسيدات لمساحتنا السémانكية المشتركة حيث يتم إجراء مقارنات بين أي نص هدف ومحتوى بصري باستخدام مماثلة الكوساين. نوجه النموذج بواسطة آلية انتباه متعددة الوسائط ومتعددة المستويات التي تنتج ميزات بصرية معالجة في كل مستوى. يتم اختيار أفضل مستوى ليتم مقارنته بمحتوى النص بهدف تعظيم درجات الصلة لأزواج الصورة-الجملة في الحقيقة الأرضية. أظهرت التجارب التي أجريت على ثلاث قواعد بيانات متاحة للجمهور زيادة كبيرة في الأداء (من 20٪ إلى 60٪ نسبةً) مقارنة بأحدث التقنيات في تحديد موقع الجمل وأقامت رقماً قياسياً جديداً للأداء على تلك القواعد البيانات. قدمنا دراسة استبعاد مفصلة لتوضيح مساهمة كل عنصر من عناصر نهجنا وأطلقنا شفرتنا المصدرية على GitHub.请注意,"semantic" 在阿拉伯语中通常翻译为 "سémانكية",但正确的拼写应该是 "سيميائية" 或 "دلالية". 上面的翻译已修正为“دلالية”以确保准确性。以下是修正后的版本:نعالج مشكلة تثبيت الجمل من خلال تعلم مساحة دلالية مشتركة متعددة المستويات بين الوسيلتين النصية والبصرية. نستغل مستويات متعددة من خرائط الميزات لشبكة عصبية تقنية التحويل العميقة، بالإضافة إلى تمثيلات الكلمات والجمل السياقية المستخرجة من نموذج لغوي يعتمد على الحروف. بعد تطبيق عمليات التعيين غير الخطية المخصصة لميزات الصور في كل مستوى، وتمثيلات الكلمات والجمل، نحصل على عدة تجسيدات لمساحتنا الدلالية المشتركة حيث يتم إجراء مقارنات بين أي نص هدف ومحتوى بصري باستخدام مماثلة الكوساين. نوجه النموذج بواسطة آلية انتباه متعددة الوسائط ومتعددة المستويات التي تنتج ميزات بصرية معالجة في كل مستوى. يتم اختيار أفضل مستوى ليتم مقارنته بمحتوى النص بهدف تعظيم درجات الصلة لأزواج الصورة-الجملة في الحقيقة الأرضية. أظهرت التجارب التي أجريت على ثلاث قواعد بيانات متاحة للجمهور زيادة كبيرة في الأداء (من 20٪ إلى 60٪ نسبةً) مقارنة بأحدث التقنيات في تحديد موقع الجمل وأقامت رقماً قياسياً جديداً للأداء على تلك القواعد البيانات. قدمنا دراسة استبعاد مفصلة لتوضيح مساهمة كل عنصر من عناصر نهجنا وأطلقنا شفرتنا المصدرية على GitHub.