الملخص

أظهرت نماذج الرؤية واللغة (VLMs) أداءً متميزًا في المهام المختلفة دون تدريب مسبق (ZS). ومع ذلك، أظهرت الدراسات الحديثة أن حتى أفضل نماذج VLM لا تزال تعاني من صعوبة في استيعاب جوانب فهم المشهد المركب، مثل صفات الكائنات والعلاقات والحالات الحركية. على النقيض من ذلك، فإن جمع التسميات الهيكلية، مثل مخططات المشهد (SGs)، التي يمكن أن تُحسّن هذه النماذج، يُعدّ عملية تستهلك وقتًا وتكاليف كبيرة، وبالتالي لا يمكن استخدامها على نطاق واسع. في هذا العمل، نتساءل ما إذا كانت مجموعات بيانات SG الصغيرة كافية لتوفير معلومات كافية لتعزيز الفهم الهيكلية للنماذج المُدرَّبة مسبقًا من VLMs. نُظهر أن من الممكن فعلاً تحسين أداء نماذج VLM من خلال التعلّم من مخططات المشهد، وذلك من خلال دمج مكونات تُضمن المعلومات الهيكلية في كل من التمثيل البصري والتمثيل النصي. من الناحية البصرية، نُدمج مكونًا خاصًا يُسمى "مكوّن SG" في محول الصور، والذي يُدرّب على توقع معلومات مخطط المشهد، بينما من الناحية النصية، نستخدم مخططات المشهد لتوليد وصفات دقيقة تُبرز جوانب مركبة مختلفة في المشهد. يُحسّن هذا الأسلوب أداء عدة نماذج VLM شهيرة على مجموعة متنوعة من مجموعات البيانات البصرية واللغوية، مع حدوث انخفاض طفيف فقط في الأداء في المهام دون تدريب مسبق.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

دمج التمثيلات الهيكلية في النماذج المُدرَّبة مسبقًا للرؤية واللغة باستخدام رسومات المشهد

Roei Herzig Alon Mendelson Leonid Karlinsky Assaf Arbelle Rogerio Feris Trevor Darrell Amir Globerson

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

دمج التمثيلات الهيكلية في النماذج المُدرَّبة مسبقًا للرؤية واللغة باستخدام رسومات المشهد

Roei Herzig Alon Mendelson Leonid Karlinsky Assaf Arbelle Rogerio Feris Trevor Darrell Amir Globerson

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

دمج التمثيلات الهيكلية في النماذج المُدرَّبة مسبقًا للرؤية واللغة باستخدام رسومات المشهد

Roei Herzig Alon Mendelson Leonid Karlinsky Assaf Arbelle Rogerio Feris Trevor Darrell Amir Globerson

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters