الملخص

في هذه الورقة، نقترح نموذجًا لغويًا بصريًا مدعومًا بالاسترجاع (REVEAL) من الطرف إلى الطرف، يتعلم ترميز المعرفة العالمية في ذاكرة كبيرة الحجم، واسترجاعها للإجابة على الأسئلة المعرفية المعقدة. يتكون REVEAL من أربع مكونات رئيسية: الذاكرة، والمحول، والمسترجِع، والموَلِّد. تُرَمَّز الذاكرة الكبيرة الحجم مصادر متعددة من المعرفة العالمية متعددة الوسائط (مثل أزواج الصور والنصوص، وأزواج الأسئلة والإجابات، وثلاثيات الرسوم المعرفية، إلخ) عبر محول موحد. يقوم المسترجِع باسترجاع الإدخالات المعرفية الأكثر صلة في الذاكرة، بينما يدمج الموَلِّد المعرفة المسترجعة مع السؤال المدخل لإنتاج الإخراج. يتمثل الابتكار الرئيسي في نهجنا في أن الذاكرة، والمحول، والمسترجِع، والموَلِّد يتم تدريبها جميعًا من الطرف إلى الطرف على كميات هائلة من البيانات. علاوة على ذلك، يمكن لنهجنا استخدام مجموعة متنوعة من مصادر المعرفة متعددة الوسائط، مما أدى إلى تحسينات كبيرة. ونُظهر أن REVEAL يحقق نتائج متفوقة على مستوى الحد الأقصى في مهام الإجابة على الأسئلة المرئية ووصف الصور.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

REVEAL: التدريب المسبق البصري-اللغوي المعزز بالاسترجاع مع ذاكرة المعرفة متعددة المصادر متعددة الوسائط

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

REVEAL: التدريب المسبق البصري-اللغوي المعزز بالاسترجاع مع ذاكرة المعرفة متعددة المصادر متعددة الوسائط

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

REVEAL: التدريب المسبق البصري-اللغوي المعزز بالاسترجاع مع ذاكرة المعرفة متعددة المصادر متعددة الوسائط

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters