تعلم نماذج التعلم الصفرية العامة لموقع الصور في المجال المفتوح

تحديد موقع الصورة الجغرافي هو مهمة صعبة تتمثل في التنبؤ بالإحداثيات الجغرافية لمصدر صورة معينة. وهي مشكلة غير محلولة تعتمد على القدرة على دمج العلامات البصرية بالمعرفة العامة عن العالم لتقديم توقعات دقيقة عبر مختلف المناطق الجغرافية. نقدم $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$، وهو نموذج أساسي متين ومتوفر للعامة، ليس فقط يحقق أداءً رائدًا في مجال المعايير المتعددة لتحديد موقع الصور الجغرافي في المجالات المفتوحة، بل يقوم بذلك أيضًا في بيئة التعلم بدون تصوير (zero-shot setting)، متفوقًا على النماذج المشرف عليها التي تم تدريبها على أكثر من 4 ملايين صورة.طريقتنا تقدم نهجًا للمETA-تعلم للتعلم بدون تصوير (zero-shot learning) بشكل عام من خلال التدريب الأولي لـ CLIP باستخدام العناوين المصطنعة، مما يجعل CLIP متأصلًا في مجال اختياري. نظهر أن طryptonا تقوم بنقل قدرات التعلم بدون تصوير (zero-shot) العامة لـ CLIP إلى مجال تحديد موقع الصور الجغرافي بشكل فعال، مما يحسن الأداء العام للتعلم بدون تصوير داخل هذا المجال دون الحاجة إلى تعديل StreetCLIP على مجموعة ثابتة من الفئات.