HyperAIHyperAI
منذ 2 أشهر

GLAC Net: شبكات التدرج الانتباهية المحلية للقصص الموجهة بمتعدد الصور

Taehyeong Kim; Min-Oh Heo; Seonil Son; Kyoung-Wha Park; Byoung-Tak Zhang
GLAC Net: شبكات التدرج الانتباهية المحلية للقصص الموجهة بمتعدد الصور
الملخص

مهمة توليد القصص الموجهة بمتعدد الصور، مثل تحدي مجموعة بيانات السرد البصري (VIST)، هي تكوين جمل متعددة متماسكة من سلسلة صور معطاة. الصعوبة الرئيسية تكمن في كيفية إنشاء جمل خاصة بالصور ضمن سياق الصور العامة. هنا نقترح نموذج شبكة تعلم عميقة، وهو GLAC Net، الذي يولد القصص البصرية من خلال دمج آليات الانتباه العالمية والمحلية (العالمية-المحلية) وتصعيد السياق. يتضمن النموذج مستويين من الانتباه، أي مستوى الترميز العام ومستوى خصائص الصورة، لبناء جمل تعتمد على الصورة. بينما تحتاج التكوينات القياسية للانتباه إلى عدد كبير من المعلمات، فإن GLAC Net يطبقها بطريقة بسيطة للغاية عبر اتصالات مباشرة من مخرجات الترميز أو خصائص الصورة إلى مولدات الجمل. يتم تحسين تماسك القصة المنتجة بشكل أكبر بنقل (تصعيد) المعلومات من الجملة السابقة إلى الجملة التالية بشكل متسلسل. قمنا بتقييم أداء GLAC Net على مجموعة بيانات السرد البصرية (VIST) وحققنا نتائج تنافسية للغاية مقارنة بأحدث التقنيات. رمز البرمجة والنموذج المدرب مسبقًا متاحان هنا.

GLAC Net: شبكات التدرج الانتباهية المحلية للقصص الموجهة بمتعدد الصور | أحدث الأوراق البحثية | HyperAI