HyperAIHyperAI

Command Palette

Search for a command to run...

将文本表示为张量

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

一句话总结

本文提出了一种组合式层次张量分解方法,通过将递归的整体与部分统一至一个可解释的框架中,成功将物体的内在属性与外在成像条件解耦。该框架将多线性块张量分解作为特例包含在内,最终生成具备遮挡鲁棒性的特征表示,在降低训练数据需求的同时,于 Freiburg 和 Labeled Faces in the Wild (LFW) 数据集上取得了令人鼓舞的人脸验证结果。

核心贡献

  • 本文提出了一种统一的层次张量模型,通过组合式层次张量分解将物体外观的内在与外在因果因素解耦。该方法在视觉整体与部分的树状层次结构上进行优化,以学习可解释的多层次特征,同时将多线性块张量分解作为特例纳入框架。
  • 由此产生的组合式表示增强了模型对遮挡的识别鲁棒性,并通过摆脱对大规模标注数据集的依赖,显著降低了对训练数据的需求。
  • 人脸验证实验表明,该方法在 Freiburg 和 Labeled Faces in the Wild (LFW) 数据集上具有显著有效性。实验仅使用了一个合成训练集,其数据量不足同类深度学习方法通常所需数据量的百分之一。

引言

本文致力于解决视觉数据中内在与外在因果因素解耦的根本性挑战,该能力对于实现鲁棒的目标识别与高效表示至关重要。传统计算机视觉方法主要依赖全局特征或局部描述子,但均易受遮挡或噪声干扰。尽管深度学习在很大程度上已取代上述方法,却也引入了新的瓶颈,包括海量数据需求、沉重的计算开销以及有限的模型可解释性,从而阻碍了其在资源受限硬件上的部署。为突破这些局限,本文提出一种组合式层次张量分解框架,将输入数据视为由整体与部分构成的结构化树。该数学模型在所有层次级别上同步进行优化,以学习可解释的卷积特征,并生成一种本质上具备遮挡鲁棒性的组合式对象表示。该方法大幅降低了对训练数据的需求,同时为压缩现有神经网络并提升其泛化能力提供了一种理论依据充分的路径。

数据集

  • 数据集构成与来源: 本文将观测数据表示为一个通用张量 D\mathcal{D}D,该张量可递归分解为整体与部分。该框架并非针对特定公开基准设计,而是旨在处理任何具有层次结构的多维数据,无论其由部分重叠的子节点、不重叠的组件还是完全重叠的片段构成。

  • 各子集关键细节: 数据通过滤波器组 {Hs}\{\mathbf{H}_s\}{Hs} 被划分为若干片段 Ds\mathcal{D}_sDs。每个滤波器均为二维卷积算子,实现为双重或三重块循环矩阵,且完整滤波器组的求和结果为单位矩阵。这些片段捕捉了父级整体与子级部分之间不同的重叠关系,从而支持在不同数据模态间进行灵活的结构表示。

  • 数据使用方法: 本文将分割后的数据组织为层次数据张量 DH\mathcal{D}_{\mathcal{H}}DH,并将各个片段沿其上对角线放置。该结构支持组合式层次张量分解,用于建模内在与外在因果因素。本文采用正交正则化优化重构目标,在应用截断以进行降维之前,通过层次张量的 M-mode SVD 初始化该过程。

  • 裁剪策略与处理细节: 分割充当主要的裁剪机制,通过沿测量模式进行卷积滤波来实现。当滤波器矩阵充当块单位矩阵时,可提取数据部分而不引入模糊、下采样或上采样。本文指出,感知部分可能与向量化输入无法完全对齐,因此需要简单的置换操作以实现正确的分块。所有处理均依赖 mode-n products,以生成基于部分的因果分解,从而为非重叠片段隔离独立的计算过程。

方法

本文提出的方法引入了一种组合式层次张量分解,旨在解耦物体图像生成背后的层次因果结构,尤其适用于视觉识别任务。该框架作用于高阶数据张量 D\mathcal{D}D,其中每个观测值对应一个向量化图像,张量的各模式代表数据生成的各种因果因素,如人物、视角、光照和表情。该方法的核心在于整体与部分的统一张量模型,该模型将数据张量重新概念化为一种层次结构,显式建模感知整体与其组成部分的递归构成关系。

模型架构基于层次数据张量 DH\mathcal{D}_{\mathcal{H}}DH 构建,该张量被分解为核心张量 ZH\mathcal{Z}_{\mathcal{H}}ZH 以及针对每个因果因素 ccc 的一组模式矩阵 Ucx\mathbf{U}_{\mathrm{cx}}Ucx。分解过程表示为 D=ZH×0U0x×1U1x×CUCx\mathcal{D} = \mathcal{Z}_{\mathcal{H}} \times_0 \mathbf{U}_{0x} \times_1 \mathbf{U}_{1x} \cdots \times_C \mathbf{U}_{Cx}D=ZH×0U0x×1U1x×CUCx。该公式使模型能够将图像表示为整体及其组成部分表示的组合选择,从而实现内在与外在因果因素的层次化解耦。该层次结构专为具备遮挡鲁棒性而设计,因为它能够基于物体的可见部分来表征其外观,而非依赖单一的全局表示。

训练过程采用一种迭代优化算法(算法 2),在求解模式矩阵与核心张量之间交替进行。优化过程基于最小化衡量数据张量重构误差的损失函数。对于每个模式 ccc,通过求解方程 e/Ucx=0\partial e / \partial \mathbf{U}_{cx} = 0e/Ucx=0 计算最优模式矩阵 Ucx\mathbf{U}_{cx}Ucx,该方程导出了包含伪逆的闭式解。随后,核心张量 ZH\mathcal{Z}_{\mathcal{H}}ZH 通过求解由重构误差向量化形式导出的线性系统进行更新。这种交替最小二乘法确保了目标函数收敛至局部极小值。

该方法在人脸识别场景中进行了演示,其中数据张量由不同光照和视角条件下的合成人脸图像构建而成。生成的面部表示具备可解释性与层次性,从而实现了对光照和视角等因素的解耦。模型能够从缩减规模的合成图像数据集中学习,并在 LFW 和 Freiburg 等真实世界数据集上实现鲁棒性能,这凸显了其在数据稀缺领域的适用性。分解的组合特性使模型能够在多个尺度与分辨率上表征面部特征,从而增强了其处理图像外观变化的能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供