2 个月前
OpenStreetView-5M:全球视觉地理定位的多条道路
Guillaume Astruc; Nicolas Dufour; Ioannis Siglidis; Constantin Aronssohn; Nacim Bouia; Stephanie Fu; Romain Loiseau; Van Nguyen Nguyen; Charles Raude; Elliot Vincent; Lintao XU; Hongyu Zhou; Loic Landrieu

摘要
确定地球上任何位置的图像是一项复杂的视觉任务,这使得它在评估计算机视觉算法方面具有特别重要的意义。然而,缺乏标准的、大规模的、开放获取的数据集,其中包含可可靠定位的图像,限制了这一领域的潜力。为了解决这一问题,我们引入了OpenStreetView-5M(OSV-5M),这是一个大规模的、开放获取的数据集,包含超过510万张地理参考的街景图像,覆盖了225个国家和地区。与现有的基准数据集不同,我们严格执行训练集和测试集的分离,从而能够评估学习到的地理特征的相关性而不仅仅是记忆能力。为了展示我们数据集的实用性,我们对各种最先进的图像编码器、空间表示方法和训练策略进行了广泛的基准测试。所有相关的代码和模型均可在https://github.com/gastruc/osv5m 获取。