6 个月前

摘要

基于CLIP和ImageBind的数据嵌入为多媒体及多模态数据的分析提供了强大的特征表示。本文在分类任务中评估了这些嵌入特征的性能，采用基于高斯混合模型（GMM）的层作为标准Softmax层的替代方案。近期研究表明，GMM-based分类器在端到端训练的深度学习流水线中展现出令人瞩目的性能。本文的首个贡献在于，系统研究了利用CLIP与ImageBind所生成的嵌入空间进行GMM分类的性能表现。第二个贡献是提出了一种参数量更少的新型GMM分类器，相较于先前方法具有更低的模型复杂度。研究发现，在大多数测试场景下，针对这些嵌入空间，每个类别仅需一个高斯分量即可有效表征，这表明GMM中的单分量结构已足够捕捉各类别特征。我们推测，这一现象可能源于CLIP与ImageBind在训练过程中所采用的对比损失（contrastive loss），该损失函数天然促使同一类别的特征在嵌入空间中聚集，从而增强了类内紧凑性。此外，实验还表明，即使在使用主成分分析（PCA）对嵌入空间进行压缩后，ImageBind在图像数据集分类任务中的表现通常仍优于CLIP。

源 PDF