HyperAIHyperAI
منذ 16 أيام

هادا: إطار تجميع قائم على الرسم البياني في استرجاع الصور والنصوص

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
هادا: إطار تجميع قائم على الرسم البياني في استرجاع الصور والنصوص
الملخص

تم اقتراح العديد من النماذج لمهام الرؤية واللغة، وخاصةً مهمة استرجاع الصور والنصوص. وتشمل جميع النماذج الرائدة (SOTA) في هذا التحدي مئات الملايين من المعلمات، كما تم تدريبها مسبقًا على مجموعة بيانات خارجية كبيرة، وقد أثبتت هذه المجموعة تحسينًا كبيرًا في الأداء العام. من الصعب اقتراح نموذج جديد ببنية معمارية مبتكرة، وتدريبه بشكل مكثف على مجموعة بيانات ضخمة باستخدام عدد كبير من وحدات المعالجة الرسومية (GPUs) لتجاوز العديد من النماذج الرائدة التي تتوفر بالفعل عبر الإنترنت. في هذه الورقة، اقترحنا إطارًا مكثفًا قائمًا على الرسوم البيانية، يُسمى HADA، يمكنه دمج النماذج المدربة مسبقًا لتحقيق أداء أفضل، بدلاً من بناء نموذج من الصفر. أولاً، قمنا بإنشاء هيكل رسومي (Graph Structure)، حيث كانت العقد هي السمات المستخرجة من النماذج المدربة مسبقًا، والحواف هي الروابط التي تربط بين هذه العقد. وقد استُخدم هذا الهيكل الرسومي لالتقاط ودمج المعلومات من كل نموذج مُدرَّب مسبقًا مع بعضه البعض. ثم تم تطبيق شبكة عصبية رسومية (Graph Neural Network) لتحديث الاتصالات بين العقد، بهدف الحصول على متجه تمثيلي مميز لكل من الصورة والنص. وأخيرًا، استخدمنا التشابه الزاوي (Cosine Similarity) لربط الصور بنصوصها ذات الصلة والعكس، مما يضمن زمن استدلال منخفض. أظهرت تجاربنا أن HADA، رغم احتوائه على عدد ضئيل جدًا من المعلمات القابلة للتدريب، تمكّن من زيادة أداء النموذج الأساسي بنسبة تزيد عن 3.6٪ من حيث مقاييس التقييم على مجموعة بيانات Flickr30k. علاوة على ذلك، لم يُدرّب النموذج المقترح على أي مجموعة بيانات خارجية، ولم يكن يحتاج إلى عدد كبير من وحدات المعالجة الرسومية، بل يكفي استخدام وحدة واحدة فقط بسبب عدد معلماته الصغير. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/m2man/HADA.

هادا: إطار تجميع قائم على الرسم البياني في استرجاع الصور والنصوص | أحدث الأوراق البحثية | HyperAI