6 个月前

摘要

我们提出了一项新的任务——K个核心概念识别，用于数据集的摘要表示。该任务的目标是从数据集中识别出一组能够最好地解释数据内部变化的K个概念。这些概念是高层级、人类可理解的语义术语，例如“老虎”、“皮划艇”或“快乐”等。这K个概念从一个（可能很长的）候选概念列表中选出，我们称之为“概念库”（concept-bank）。概念库可来源于通用词典，也可基于特定任务的先验知识构建。通过图像-语言嵌入方法（如CLIP），我们将图像与概念库映射到一个共享的特征空间中。为选出最能解释数据的K个概念，我们将该问题建模为K-无容量限制的设施选址问题（K-uncapacitated facility location problem）。采用高效的优化技术，使局部搜索算法能够扩展至超大规模的概念库。所提出方法的输出是一组K个核心概念，能够有效概括整个数据集。与仅选取K个代表性图像的方法相比，本方法提供了更为清晰、明确的数据摘要，避免了图像选择中常见的语义模糊性。此外，该方法还可进一步应用于将数据集划分为K个类别。大量实验结果验证了本方法的有效性与优越性。

源 PDF