17日前

MegaPairs:ユニバーサルなマルチモーダル検索のための大量データ合成

Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
MegaPairs:ユニバーサルなマルチモーダル検索のための大量データ合成
要約

マルチモーダル検索に対する需要は急速に増加しているが、この分野の進展は依然として訓練データの不足によって大きく制限されている。本論文では、視覚言語モデル(VLMs)およびオープンドメイン画像を活用し、新たなデータ合成手法「MegaPairs」を提案する。この手法により、大規模な合成データセットを生成した。実証分析の結果、MegaPairsは高品質なデータを生成でき、従来の70倍以上のデータを用いて訓練されたベースラインモデルを著しく上回る性能を実現することが明らかになった。さらに、MegaPairsは一般向け画像コーパスおよびオープンソースのVLMsに依存するのみであるため、スケーラビリティに優れており、継続的な検索性能の向上が可能である。本段階では、2600万件を超える訓練インスタンスを生成し、複数のサイズのモデルをこのデータで訓練した。これらの新規モデルは、4つの代表的な複合画像検索(CIR)ベンチマークにおいて最先端のゼロショット性能を達成し、MMEBが提供する36のデータセットにおいても最高の全体的な性能を示した。また、追加のダウンストリームファインチューニングにより、顕著な性能向上も確認された。本研究で生成したデータセット、高精度に訓練されたモデル、およびデータ合成パイプラインは、今後の分野発展を促進するため、公開予定である。

MegaPairs:ユニバーサルなマルチモーダル検索のための大量データ合成 | 最新論文 | HyperAI超神経