6 个月前

摘要

本文介绍了IMPACT（Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents，面向设计专利的多模态专利分析与创作数据集），这是一个大规模的多模态专利数据集，包含对设计专利图示的详细描述。该数据集涵盖50万项设计专利，共计361万张图示，所有数据均来自美国专利商标局（USPTO）在2007年至2022年这16年间授予的专利。我们为每项专利申请整合了丰富的元数据，并配以与设计多视角一致的详尽描述。尽管专利本身已包含多种设计图示、标题以及不同视角的描述，但我们发现这些内容在细节描述方面仍显不足，难以满足图像分类、信息检索等多模态任务的需求。IMPACT有效填补了这一空白，为研究人员开展各类多模态任务提供了关键数据支持。该数据集在激发创新设计灵感方面具有巨大潜力，可与先进的计算机视觉模型协同使用。我们在该数据集上对主流专利分析任务（如分类与检索）进行了初步评估，结果表明，将图像与自动生成的描述相结合，显著提升了各类模型在对应任务上的性能表现。鉴于设计专利在建模新型任务方面的独特优势，我们以IMPACT为基准，提出两个尚未在专利分析领域深入探索的标准化计算机视觉任务作为未来研究方向：3D图像重建与视觉问答（Visual Question Answering, VQA）。为推动相关研究，我们已将IMPACT数据集以及本研究中所使用的代码与模型公开发布于GitHub：https://github.com/AI4Patents/IMPACT。

源 PDF 查看代码