2 个月前

PlaNet - 基于卷积神经网络的照片地理定位

Tobias Weyand; Ilya Kostrikov; James Philbin
PlaNet - 基于卷积神经网络的照片地理定位
摘要

仅通过照片的像素来确定其拍摄地点是否可能?总体而言,这个问题似乎异常困难:构建无法推断出地点的情况轻而易举。然而,图像中常常包含诸如地标、天气模式、植被、道路标记和建筑细节等有用线索,这些线索结合起来可能允许我们确定一个大致的地理位置,有时甚至可以确定确切的地理位置。例如,GeoGuessr 和 View from your Window 等网站表明,人类在整合这些线索以地理定位图像方面相对较为擅长,尤其是在大量图像的情况下。在计算机视觉领域,照片地理定位问题通常采用图像检索方法来解决。相比之下,我们将该问题视为分类问题,通过将地球表面划分为数千个多尺度地理单元(cells),并使用数百万张带有地理标签的图像训练深度网络。以往的方法仅能识别地标或使用全局图像描述符进行近似匹配,而我们的模型能够利用和整合多个可见线索。我们展示了由此产生的模型——称为 PlaNet——不仅优于以往的方法,在某些情况下甚至达到了超越人类的准确性水平。此外,我们通过结合长短期记忆(LSTM)架构将模型扩展到相册中。通过学习利用时间连贯性来地理定位不确定的照片,我们证明了该模型相比单张图像模型性能提高了 50%。

PlaNet - 基于卷积神经网络的照片地理定位 | 最新论文 | HyperAI超神经