GAN المتكررة لانتقال الموضوع لتوليد الفقرات البصرية

الصورة الطبيعية عادة ما تحمل محتوى معنويًا غنيًا ويمكن رؤيتها من زوايا مختلفة. ومع ذلك، فإن طرق وصف الصور الحالية تقتصر في الغالب على مجموعات صغيرة من التوقيعات البصرية المتحيزة، مما يؤدي إلى فشلها في تغطية المعاني الكامنة الغنية. في هذا البحث، ندرس إطارًا شبه مراقب لتكوين الفقرات قادر على إنشاء وصف فقرات متنوعة ومتماسكة معنوياً من خلال الاستدلال على المناطق المعنوية المحلية واستغلال المعرفة اللغوية. يبني الإطار المقترح، وهو شبكة التوليد التنافسية المتكررة للانتقال بين المواضيع (RTT-GAN)، هيكلًا تنافسيًا بين مولد فقرات منظم ومميزات فقرات متعددة المستويات. يقوم مولد الفقرات بتوليد الجمل بشكل متكرر من خلال دمج آليات الانتباه المرتكزة على المنطقة واللغة في كل خطوة. يتم تقييم جودة الجمل المنجزة للفقرة بواسطة مميزات تنافسية متعددة المستويات من جهتين: الأحتمالية على مستوى الجملة والتناسق في انتقال الموضوع على مستوى الفقرة. التدريب المشترك التنافسي لـ RTT-GAN يدفع النموذج إلى إنتاج فقرات واقعية مع انتقال منطقي سلس بين مواضيع الجمل. تثبت التجارب الكمية الواسعة التي أجريت على مجموعة بيانات الفقرات الخاصة بالصور والفيديوهات فعالية RTT-GAN في الإعدادين المراقب وغير المراقب بشكل كامل. كما أن النتائج النوعية المتعلقة بسرد قصص متنوعة حول صورة واحدة تؤكد قابلية الفهم لـ RTT-GAN.请注意,对于“Recurrent Topic-Transition Generative Adversarial Network (RTT-GAN)”这样的专有名词,我保留了其英文缩写以确保信息的完整性。在阿拉伯语中,通常会在首次提及这类术语时提供英文缩写,并在后续使用中直接使用缩写。