
要約
CLIPおよびImageBindを用いたデータ埋め込みは、マルチメディアおよび/またはマルチモーダルデータの解析に強力な特徴量を提供する。本研究では、標準的なSoftmax層の代替としてガウス混合モデル(GMM)をベースとする層を用いた分類性能を評価する。近年、エンドツーエンドで訓練される深層学習パイプラインの一部として、GMMベースの分類器が興味深い性能を示すことが示されている。本研究の第一の貢献は、CLIPおよびImageBindの埋め込み空間を活用して、GMMベースの分類性能を検証することである。第二の貢献は、従来提案されたものよりもパラメータ数が少ない独自のGMMベース分類器を提案することである。その結果、テストした埋め込み空間において、クラスごとに1つのガウス成分で十分な分類性能が得られることが多く、これはこれらの埋め込み空間の学習に用いられる対照的損失(contrastive loss)が、各クラスの特徴量を自然に集約する性質を持っているためであると仮説を立てる。また、主成分分析(PCA)による圧縮を施した場合でも、ImageBindの埋め込み空間がCLIPよりも画像データセットの分類において高い性能を示す傾向があることを観察した。