HyperAIHyperAI
منذ 3 أشهر

REVEAL: التدريب المسبق البصري-اللغوي المعزز بالاسترجاع مع ذاكرة المعرفة متعددة المصادر متعددة الوسائط

Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross, Alireza Fathi
REVEAL: التدريب المسبق البصري-اللغوي المعزز بالاسترجاع مع ذاكرة المعرفة متعددة المصادر متعددة الوسائط
الملخص

في هذه الورقة، نقترح نموذجًا لغويًا بصريًا مدعومًا بالاسترجاع (REVEAL) من الطرف إلى الطرف، يتعلم ترميز المعرفة العالمية في ذاكرة كبيرة الحجم، واسترجاعها للإجابة على الأسئلة المعرفية المعقدة. يتكون REVEAL من أربع مكونات رئيسية: الذاكرة، والمحول، والمسترجِع، والموَلِّد. تُرَمَّز الذاكرة الكبيرة الحجم مصادر متعددة من المعرفة العالمية متعددة الوسائط (مثل أزواج الصور والنصوص، وأزواج الأسئلة والإجابات، وثلاثيات الرسوم المعرفية، إلخ) عبر محول موحد. يقوم المسترجِع باسترجاع الإدخالات المعرفية الأكثر صلة في الذاكرة، بينما يدمج الموَلِّد المعرفة المسترجعة مع السؤال المدخل لإنتاج الإخراج. يتمثل الابتكار الرئيسي في نهجنا في أن الذاكرة، والمحول، والمسترجِع، والموَلِّد يتم تدريبها جميعًا من الطرف إلى الطرف على كميات هائلة من البيانات. علاوة على ذلك، يمكن لنهجنا استخدام مجموعة متنوعة من مصادر المعرفة متعددة الوسائط، مما أدى إلى تحسينات كبيرة. ونُظهر أن REVEAL يحقق نتائج متفوقة على مستوى الحد الأقصى في مهام الإجابة على الأسئلة المرئية ووصف الصور.