HyperAIHyperAI
منذ 12 أيام

انظر أعمق، ارَ الأغنى: صياغة عناوين فقرات صور تأخذ بعين الاعتبار العمق

{Hongzhi Yin, Zi Huang, Yang Li, Yadan Luo, Ziwei Wang}
الملخص

مع توفر واسع لوصف الصور على مستوى الجملة، ما زال توليد الفقرات الصورية تلقائيًا موضوعًا غير مُستكشف بشكل كافٍ. يكمن التحدي في وصف صورة باستخدام فقرة كاملة، إذ يتطلب ذلك تنظيم الجمل بشكل منظم وموحّد ومتباين، ما يؤدي بالضرورة إلى تعقيد أعلى مقارنةً بوصف الصورة بجملة واحدة. تقدم الطرق الحالية لوصف الصور بفقرات سلسلة من الجمل لتمثيل الكائنات ومناطق الاهتمام، حيث تُولَّد هذه الوصفات بشكل أساسي عن طريق إدخال أجزاء من الصورة تحتوي على كائنات ومناطق إلى نماذج وصف الصور التقليدية التي تعتمد على جملة واحدة. لكن هذه الاستراتيجية تواجه صعوبة في ضمان التسلسل الهرمي الثلاثي الأبعاد والعلاقة المكانية بين الكائنات دون تداخل. في هذا البحث، نقترح نموذجًا يعتمد على الانتباه المدرك للعمق (DAM) لتوليد وصف فقرات للصور. يتم أولاً تقدير عمق مناطق الصورة لتمييز الكائنات في مواقف مكانية متفاوتة، مما يُمكّن من توجيه مشفر اللغة بشكل أفضل للكشف عن العلاقات المكانية بين الكائنات. يُكمل هذا النموذج الفقرة بأسلوب منطقي ومتماسك. وباستخدام آلية الانتباه، يُمكن للنموذج المُدرَّب أن يحوّل تركيز الجملة بسرعة خلال عملية توليد الفقرة، مع تجنّب التكرار المفرط في وصف نفس الكائن. أُجريت تجارب كمية واسعة ودراسة مستخدمين على مجموعة بيانات Visual Genome، وقد أظهرت النتائج فعالية النموذج المقترح وقابلية تفسيره.

انظر أعمق، ارَ الأغنى: صياغة عناوين فقرات صور تأخذ بعين الاعتبار العمق | أحدث الأوراق البحثية | HyperAI