Zu einer umfassenden Vorverarbeitung durch die Maximierung multimodaler gegenseitiger Information

Um das Potenzial von großskaligen Modellen effektiv zu nutzen, werden verschiedene Vortrainingsstrategien vorgeschlagen, die durch umfangreiche Daten aus verschiedenen Quellen unterstützt werden, darunter überwachtes Vortraining, schwach überwachtes Vortraining und selbstüberwachtes Vortraining. Es wurde bewiesen, dass die Kombination mehrerer Vortrainingsstrategien und Daten aus verschiedenen Modalitäten/Quellen das Training von großskaligen Modellen erheblich verbessern kann. Aktuelle Arbeiten verwenden jedoch ein mehrstufiges Vortrainingsystem, bei dem der komplexe Prozess die Unsicherheit und Instabilität des Vortrainings erhöhen kann. Es ist daher wünschenswert, diese Strategien in einer einstufigen Weise zu integrieren. In dieser Arbeit schlagen wir zunächst eine allgemeine Formel für multimodale gegenseitige Information als einheitliches Optimierungsziel vor und zeigen, dass alle existierenden Ansätze Spezialfälle unseres Rahmens sind. Unter dieser einheitlichen Perspektive stellen wir einen ganzheitlichen einstufigen Vortrainingsansatz vor, den wir Maximizing Multi-modal Mutual Information Pre-training (M3I-Vortraining) nennen. Unser Ansatz erreicht bessere Ergebnisse als frühere Vortrainingsmethoden auf verschiedenen Benchmark-Datensätzen im Bereich der Bildverarbeitung, einschließlich der Klassifikation von ImageNet, der Objekterkennung in COCO, der langschweifigen Objekterkennung in LVIS und der semantischen Segmentierung in ADE20k. Bemerkenswerterweise gelingt es uns, einen Bildbackbone mit Milliardenparametern erfolgreich zu vortrainieren und den aktuellen Stand der Technik auf verschiedenen Benchmarks zu erreichen. Der Code wird unter https://github.com/OpenGVLab/M3I-Pretraining veröffentlicht.