Multimodales Kontrastives Lernen Mit Gemeinsamer Beispielauswahl (JEST)
Multimodal Contrastive Learning with Joint Example Selection (JEST) ist ein neuer Algorithmus, der 2024 vom DeepMind-Forschungsteam vorgeschlagen wurde.Datenkuratierung durch gemeinsame Beispielauswahl beschleunigt multimodales Lernen zusätzlich". JEST zielt darauf ab, das Problem des hohen Energieverbrauchs beim Training großer Sprachmodelle wie ChatGPT zu lösen. Der JEST-Algorithmus reduziert die erforderlichen Rechenressourcen und die Zeit erheblich, indem er hochwertige Unter-Batches aus großen „Super-Batches“ für das Training auswählt.
Die Kernidee des JEST-Algorithmus besteht darin, multimodales kontrastives Lernen und gemeinsame Beispielauswahl zu nutzen, um die Trainingseffizienz zu verbessern. Dabei wird zunächst die Lernfähigkeit der gesamten Untergruppe bewertet und anschließend anhand der Ergebnisse die für das Training relevantesten Untergruppen ausgewählt. Dieser Ansatz verbessert nicht nur die Trainingseffizienz, sondern beschleunigt auch das multimodale Lernen. Bei Verwendung von Filterverhältnissen von 50%, 80% und 90% sind nur 2 Milliarden, 1 Milliarde bzw. 670 Millionen Trainingsbeispiele erforderlich, um die endgültige Leistung des einheitlichen Benchmarks von 3 Milliarden zu erreichen.
Darüber hinaus berücksichtigt der JEST-Algorithmus auch den Synergieeffekt zwischen Multi-Resolution-Training und Online-Batch-Auswahl, wodurch der Rechenaufwand weiter reduziert wird.