16日前
MURAL:言語を跨ぐマルチモーダル・マルチタスク検索
Aashi Jain, Mandy Guo, Krishna Srinivasan, Ting Chen, Sneha Kudugunta, Chao Jia, Yinfei Yang, Jason Baldridge

要約
画像・キャプションペアと翻訳ペアの両方が、言語間の深い表現およびその関係を学習する手段を提供する。本研究では、MURAL(MUltimodal, MUltitask Representations Across Languages)という二重エンコーダーにおいて、これらの両方のペアを活用している。MURALは以下の2つのタスクを同時に解決する:1)画像・テキストのマッチング、2)翻訳ペアのマッチング。18億件のノイズを含む画像・テキストペアから学習された最先端の二重エンコーダーであるALIGN(Jia et al., PMLR’21)を拡張するために、MURALは数十億もの翻訳ペアを活用している。同一のエンコーダーを用いた場合、MURALは複数のデータセットにおいて、リソースが豊富な言語に関してALIGNのクロスモーダル検索性能と同等またはそれ以上の性能を達成している。さらに重要な点として、MURALはリソースが乏しい言語において顕著な性能向上を示しており、テキスト同士の学習がこれらの言語における画像・キャプション例の不足を補う可能性を示している。例えば、Wikipedia Image-Textデータセットにおいて、MURAL-baseは8つのリソースが乏しい言語に対してゼロショット平均リコールを平均8.1%向上させ、ファインチューニングを実施した場合でも平均6.8%の向上を達成した。また、MURALのテキスト表現が言語の系統的関係だけでなく、バルカン諸語連合(Balkan Sprachbund)といった地域言語学的特徴に基づいてもクラスタリングされることも示した。