2ヶ月前

BiCro: 多モダリティデータのノイジー対応修正を双方向クロスモーダル類似性一貫性により行う

Yang, Shuo ; Xu, Zhaopan ; Wang, Kai ; You, Yang ; Yao, Hongxun ; Liu, Tongliang ; Xu, Min
BiCro: 多モダリティデータのノイジー対応修正を双方向クロスモーダル類似性一貫性により行う
要約

多モーダル学習の最も基本的な技術の一つとして、クロスモーダルマッチングは異なる感覚モーダルを共有特徴空間に射影することを目指しています。この目的を達成するためには、大量かつ正確にアラインされたデータペアが必要です。しかし、単一モーダルのデータセットと異なり、多モーダルのデータセットは収集および精確なアノテーションが非常に困難です。そのため、代替手段として、インターネットから収集された共起データペア(例えば、画像-テキストペア)が広く利用されています。しかしながら、安価に収集されたデータセットには避けられないほど多くの不一致データペアが含まれており、これがモデルの性能に悪影響を与えることが証明されています。これを解決するために、我々はBiCro(双方向クロスモーダル類似度一貫性)と呼ばれる一般的なフレームワークを提案します。BiCroは既存のクロスモーダルマッチングモデルに容易に統合でき、ノイジーなデータに対するロバスト性を向上させます。具体的には、BiCroはノイジーなデータペアに対してソフトラベルを推定し、それらの真の対応度を反映することを目指しています。BiCroの基本的なアイデアは以下の点から導かれています:画像-テキストマッチングを例にとって説明すると、類似した画像には類似したテキスト記述が付き添い、逆もまた然りであるということです。その後、これらの2つの類似度の一貫性を推定されたソフトラベルとして再構成し、マッチングモデルの訓練に使用します。3つの人気のあるクロスモーダルマッチングデータセットでの実験結果は、我々の方法が様々なマッチングモデルのノイズロバスト性を大幅に向上させることを示しており、現行の最先端手法を超える明確な優位性を持っています。

BiCro: 多モダリティデータのノイジー対応修正を双方向クロスモーダル類似性一貫性により行う | 最新論文 | HyperAI超神経