HyperAIHyperAI

Command Palette

Search for a command to run...

مساحة معنوية مشتركة متعددة المستويات وأشكال التعبير للربط بين الصور والعبارات

Hassan Akbari; Svebor Karaman; Surabhi Bhargava; Brian Chen; Carl Vondrick; Shih-Fu Chang

الملخص

نعالج مشكلة تثبيت الجمل من خلال تعلم مساحة سémانكية مشتركة متعددة المستويات بين الوسيلتين النصية والبصرية. نستغل مستويات متعددة من خرائط الميزات لشبكة عصبية تقنية التحويل العميقة، بالإضافة إلى تمثيلات الكلمات والجمل السياقية المستخرجة من نموذج لغوي يعتمد على الحروف. بعد تطبيق عمليات التعيين غير الخطية المخصصة لميزات الصور في كل مستوى، وتمثيلات الكلمات والجمل، نحصل على عدة تجسيدات لمساحتنا السémانكية المشتركة حيث يتم إجراء مقارنات بين أي نص هدف ومحتوى بصري باستخدام مماثلة الكوساين. نوجه النموذج بواسطة آلية انتباه متعددة الوسائط ومتعددة المستويات التي تنتج ميزات بصرية معالجة في كل مستوى. يتم اختيار أفضل مستوى ليتم مقارنته بمحتوى النص بهدف تعظيم درجات الصلة لأزواج الصورة-الجملة في الحقيقة الأرضية. أظهرت التجارب التي أجريت على ثلاث قواعد بيانات متاحة للجمهور زيادة كبيرة في الأداء (من 20٪ إلى 60٪ نسبةً) مقارنة بأحدث التقنيات في تحديد موقع الجمل وأقامت رقماً قياسياً جديداً للأداء على تلك القواعد البيانات. قدمنا دراسة استبعاد مفصلة لتوضيح مساهمة كل عنصر من عناصر نهجنا وأطلقنا شفرتنا المصدرية على GitHub.请注意,"semantic" 在阿拉伯语中通常翻译为 "سémانكية",但正确的拼写应该是 "سيميائية" 或 "دلالية". 上面的翻译已修正为“دلالية”以确保准确性。以下是修正后的版本:نعالج مشكلة تثبيت الجمل من خلال تعلم مساحة دلالية مشتركة متعددة المستويات بين الوسيلتين النصية والبصرية. نستغل مستويات متعددة من خرائط الميزات لشبكة عصبية تقنية التحويل العميقة، بالإضافة إلى تمثيلات الكلمات والجمل السياقية المستخرجة من نموذج لغوي يعتمد على الحروف. بعد تطبيق عمليات التعيين غير الخطية المخصصة لميزات الصور في كل مستوى، وتمثيلات الكلمات والجمل، نحصل على عدة تجسيدات لمساحتنا الدلالية المشتركة حيث يتم إجراء مقارنات بين أي نص هدف ومحتوى بصري باستخدام مماثلة الكوساين. نوجه النموذج بواسطة آلية انتباه متعددة الوسائط ومتعددة المستويات التي تنتج ميزات بصرية معالجة في كل مستوى. يتم اختيار أفضل مستوى ليتم مقارنته بمحتوى النص بهدف تعظيم درجات الصلة لأزواج الصورة-الجملة في الحقيقة الأرضية. أظهرت التجارب التي أجريت على ثلاث قواعد بيانات متاحة للجمهور زيادة كبيرة في الأداء (من 20٪ إلى 60٪ نسبةً) مقارنة بأحدث التقنيات في تحديد موقع الجمل وأقامت رقماً قياسياً جديداً للأداء على تلك القواعد البيانات. قدمنا دراسة استبعاد مفصلة لتوضيح مساهمة كل عنصر من عناصر نهجنا وأطلقنا شفرتنا المصدرية على GitHub.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp