HyperAIHyperAI

Command Palette

Search for a command to run...

REVEAL: التدريب المسبق البصري-اللغوي المعزز بالاسترجاع مع ذاكرة المعرفة متعددة المصادر متعددة الوسائط

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

الملخص

في هذه الورقة، نقترح نموذجًا لغويًا بصريًا مدعومًا بالاسترجاع (REVEAL) من الطرف إلى الطرف، يتعلم ترميز المعرفة العالمية في ذاكرة كبيرة الحجم، واسترجاعها للإجابة على الأسئلة المعرفية المعقدة. يتكون REVEAL من أربع مكونات رئيسية: الذاكرة، والمحول، والمسترجِع، والموَلِّد. تُرَمَّز الذاكرة الكبيرة الحجم مصادر متعددة من المعرفة العالمية متعددة الوسائط (مثل أزواج الصور والنصوص، وأزواج الأسئلة والإجابات، وثلاثيات الرسوم المعرفية، إلخ) عبر محول موحد. يقوم المسترجِع باسترجاع الإدخالات المعرفية الأكثر صلة في الذاكرة، بينما يدمج الموَلِّد المعرفة المسترجعة مع السؤال المدخل لإنتاج الإخراج. يتمثل الابتكار الرئيسي في نهجنا في أن الذاكرة، والمحول، والمسترجِع، والموَلِّد يتم تدريبها جميعًا من الطرف إلى الطرف على كميات هائلة من البيانات. علاوة على ذلك، يمكن لنهجنا استخدام مجموعة متنوعة من مصادر المعرفة متعددة الوسائط، مما أدى إلى تحسينات كبيرة. ونُظهر أن REVEAL يحقق نتائج متفوقة على مستوى الحد الأقصى في مهام الإجابة على الأسئلة المرئية ووصف الصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp