Multimodal Contrastive Learning with Joint Example Selection (JEST) は、2024 年に DeepMind 研究チームによって提案された新しいアルゴリズムです。関連する論文の結果は次のとおりです。共同サンプル選択によるデータキュレーションにより、マルチモーダル学習がさらに加速されます”。 JEST は、大規模な言語モデル (ChatGPT など) のトレーニング プロセスにおける高エネルギー消費の問題を解決することを目的としています。 JEST アルゴリズムは、トレーニング用に大規模な「スーパー バッチ」から高品質のサブバッチを選択することで、必要なコンピューティング リソースと時間を大幅に削減します。
JEST アルゴリズムの中心となるアイデアは、マルチモーダル対比学習と共同サンプル選択を使用してトレーニング効率を向上させることです。まずサブバッチ全体の学習可能性を評価し、次にスコアに基づいてサンプリングして、トレーニングに最も関連性の高いサブバッチを選択します。この方法はトレーニング効率を向上させるだけでなく、マルチモーダル学習を高速化します。 50%、80%、90% のフィルタリング率を使用する場合、30 億均一ベンチマークの最終パフォーマンスを達成するために必要なトレーニング サンプルはそれぞれ 20 億、10 億、6 億 7,000 万だけです。
さらに、JEST アルゴリズムでは、多重解像度トレーニングとオンライン バッチ選択の間の相乗効果も考慮されており、計算コストがさらに削減されます。