
要約
テキストから画像生成と画像キャプション作成は、最近、機械の知能を評価する新しい実験的手法として注目を集めています。これらの手法は、生成時にサンプリング技術を使用して連続的な量を予測するため、評価が複雑になり、周辺分布を得ることが困難となります。多モーダル生成評価においてビジョン・アンド・ランゲージ事前学習モデルを活用する最近の傾向に基づき、CLIP特徴量を使用した負のガウス相互情報量(Gaussian Cross-Mutual Information)を統一指標として提案し、これを相互情報量発散(Mutual Information Divergence: MID)と名付けました。検証のために、テキストから画像生成および画像キャプション作成タスクで慎重に生成されたまたは人間による注釈が付いた判断を使用して、競合する指標との広範な比較を行いました。提案されたMIDは、ベンチマーク間の一貫性、サンプルの節約性、および利用されるCLIPモデルに対する堅牢性により、競合する方法を大幅に上回っています。今後は、ガウス相互情報量の多モーダル表現学習における未十分に認識されている意味や、この新規提案に基づく未来の研究が期待されます。