8 个月前

计算机视觉

多模态表征

计算机视觉

Lukas Haas Silas Alberti Michal Skreta

摘要

图像地理定位是一项具有挑战性的任务，旨在预测给定照片的地理坐标来源。这是一个尚未解决的问题，依赖于将视觉线索与对世界的普遍知识相结合，以在不同地理区域中做出准确的预测。我们介绍了 $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$ ，这是一款强大的、公开可用的基础模型，不仅在多个开放领域的图像地理定位基准测试中达到了最先进的性能，而且在零样本设置下也表现优异，超过了在超过400万张图像上训练的监督模型。我们的方法引入了一种元学习方法，用于通过从合成标题预训练CLIP来实现泛化的零样本学习，从而将CLIP扎根于所选领域。我们展示了该方法有效地将CLIP的泛化零样本能力转移到了图像地理定位领域，在没有针对固定类别集对StreetCLIP进行微调的情况下，提高了域内泛化的零样本性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Lukas Haas Silas Alberti Michal Skreta

摘要

图像地理定位是一项具有挑战性的任务，旨在预测给定照片的地理坐标来源。这是一个尚未解决的问题，依赖于将视觉线索与对世界的普遍知识相结合，以在不同地理区域中做出准确的预测。我们介绍了 $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$ ，这是一款强大的、公开可用的基础模型，不仅在多个开放领域的图像地理定位基准测试中达到了最先进的性能，而且在零样本设置下也表现优异，超过了在超过400万张图像上训练的监督模型。我们的方法引入了一种元学习方法，用于通过从合成标题预训练CLIP来实现泛化的零样本学习，从而将CLIP扎根于所选领域。我们展示了该方法有效地将CLIP的泛化零样本能力转移到了图像地理定位领域，在没有针对固定类别集对StreetCLIP进行微调的情况下，提高了域内泛化的零样本性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供