
摘要
基于CLIP和ImageBind的数据嵌入为多媒体及多模态数据的分析提供了强大的特征表示。本文在分类任务中评估了这些嵌入特征的性能,采用基于高斯混合模型(GMM)的层作为标准Softmax层的替代方案。近期研究表明,GMM-based分类器在端到端训练的深度学习流水线中展现出令人瞩目的性能。本文的首个贡献在于,系统研究了利用CLIP与ImageBind所生成的嵌入空间进行GMM分类的性能表现。第二个贡献是提出了一种参数量更少的新型GMM分类器,相较于先前方法具有更低的模型复杂度。研究发现,在大多数测试场景下,针对这些嵌入空间,每个类别仅需一个高斯分量即可有效表征,这表明GMM中的单分量结构已足够捕捉各类别特征。我们推测,这一现象可能源于CLIP与ImageBind在训练过程中所采用的对比损失(contrastive loss),该损失函数天然促使同一类别的特征在嵌入空间中聚集,从而增强了类内紧凑性。此外,实验还表明,即使在使用主成分分析(PCA)对嵌入空间进行压缩后,ImageBind在图像数据集分类任务中的表现通常仍优于CLIP。