视觉编年史:利用多模态大语言模型分析海量图像集合
Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser
发布日期: 4/16/2025

摘要
我们提出了一种使用多模态大语言模型(MLLMs)的系统,用于分析包含数千万张不同时段拍摄的图像的大型数据库,旨在发现时间变化中的模式。具体而言,我们的目标是在一定时期内捕捉城市中频繁共同出现的变化(“趋势”)。与以往的视觉分析不同,我们的分析能够回答开放性查询(例如,“城市中频繁出现的变化类型有哪些?”),而无需预设目标对象或训练标签。这些特性使得先前的学习型或无监督视觉分析工具不再适用。我们确定MLLMs是一种新型工具,因其具有开放性的语义理解能力。然而,我们的数据集规模比MLLM能够处理的上下文大四个数量级。因此,我们引入了一种自底向上的方法,将庞大的视觉分析问题分解为更易处理的子问题。我们精心设计了基于MLLM的解决方案来应对每个子问题。在使用该系统进行实验和消融研究时,我们发现它显著优于基线方法,并能够从大型城市拍摄的图像中发现有趣的趋势(例如,“增加户外用餐区”,“高架桥被涂成蓝色”等)。更多结果和交互式演示请访问 https://boyangdeng.com/visual-chronicles。