HyperAIHyperAI
منذ 2 أشهر

الرؤية بواسطة اللغة للبحث عن الصور التكوينية بدون تدريب

Shyamgopal Karthik; Karsten Roth; Massimiliano Mancini; Zeynep Akata
الرؤية بواسطة اللغة للبحث عن الصور التكوينية بدون تدريب
الملخص

بالنظر إلى صورة وتعديل هدف محدد (مثل صورة برج إيفل مع النص "بدون أشخاص وفي الليل")، يهدف استرجاع الصور التكويني (CIR) إلى استرداد الصورة الهدف المناسبة من قاعدة بيانات. بينما تعتمد النهج المراقبة على تسمية ثلاثيات تكون باهظة الثمن (أي صورة الاستفسار، التعديل النصي، والصورة الهدف)، فإن الأبحاث الحديثة تتخطى هذه الحاجة باستخدام نماذج لغوية-بصرية كبيرة الحجم (VLMs)، وتقوم بأداء استرجاع الصور التكويني بدون تدريب مسبق (ZS-CIR). ومع ذلك، لا تزال أفضل الأساليب في ZS-CIR تتطلب تدريب نماذج مخصصة ومهمة-محددة على كميات كبيرة من أزواج الصور والنصوص. في هذا العمل، نقترح معالجة CIR بطريقة خالية من التدريب عبر CIReVL الخاص بنا، وهو أنبوب عمل بسيط ولكنه قابل للتفهم البشري والتوسع بشكل فعال يعيد تركيب نماذج اللغة-الرؤية الكبيرة الحجم مع نماذج اللغة الكبيرة الحجم (LLMs). من خلال كتابة تعليق على الصورة المرجعية باستخدام VLM جاهز للتدريب وإعادة تركيب التعليق بواسطة LLM بناءً على التعديل النصي المستهدف للبحث اللاحق مثل CLIP، نحقق الاستدلال اللغوي القابل للتحوير. في أربع مقاييس لـ ZS-CIR، نجد أداءً تنافسيًا جزئيًا هو الأفضل حتى الآن - مما يحسن على الأساليب المراقبة. بالإضافة إلى ذلك، توفر مودولية CIReVL قابلية للتوسع بسهولة دون إعادة التدريب، مما يتيح لنا دراسة قوانين التوسع والنقاط الخانقة لـ ZS-CIR بينما يتم توسيعها بسهولة إلى أكثر من ضعف النتائج المبلغ عنها سابقًا في بعض الحالات. وأخيرًا، نظهر أن CIReVL يجعل CIR قابلاً للتفهم البشري بإعادة تركيب الصور والنصوص بطريقة مودولية في مجال اللغة، مما يجعله قابلاً للتدخل ويسمح بإعادة توحيد الحالات الفاشلة بعد حدوثها. سيتم إطلاق الرمز البرمجي عند القبول.

الرؤية بواسطة اللغة للبحث عن الصور التكوينية بدون تدريب | أحدث الأوراق البحثية | HyperAI