HyperAIHyperAI

Command Palette

Search for a command to run...

Zu einer umfassenden Vorverarbeitung durch die Maximierung multimodaler gegenseitiger Information

Weijie Su extsuperscript1,*† Xizhou Zhu extsuperscript2,4,*‡ Chenxin Tao extsuperscript3,*† Lewei Lu extsuperscript2 Bin Li extsuperscript1 Gao Huang extsuperscript3 Yu Qiao extsuperscript4 Xiaogang Wang extsuperscript5,2 Jie Zhou extsuperscript3 Jifeng Dai extsuperscript3,4

Zusammenfassung

Um das Potenzial von großskaligen Modellen effektiv zu nutzen, werden verschiedene Vortrainingsstrategien vorgeschlagen, die durch umfangreiche Daten aus verschiedenen Quellen unterstützt werden, darunter überwachtes Vortraining, schwach überwachtes Vortraining und selbstüberwachtes Vortraining. Es wurde bewiesen, dass die Kombination mehrerer Vortrainingsstrategien und Daten aus verschiedenen Modalitäten/Quellen das Training von großskaligen Modellen erheblich verbessern kann. Aktuelle Arbeiten verwenden jedoch ein mehrstufiges Vortrainingsystem, bei dem der komplexe Prozess die Unsicherheit und Instabilität des Vortrainings erhöhen kann. Es ist daher wünschenswert, diese Strategien in einer einstufigen Weise zu integrieren. In dieser Arbeit schlagen wir zunächst eine allgemeine Formel für multimodale gegenseitige Information als einheitliches Optimierungsziel vor und zeigen, dass alle existierenden Ansätze Spezialfälle unseres Rahmens sind. Unter dieser einheitlichen Perspektive stellen wir einen ganzheitlichen einstufigen Vortrainingsansatz vor, den wir Maximizing Multi-modal Mutual Information Pre-training (M3I-Vortraining) nennen. Unser Ansatz erreicht bessere Ergebnisse als frühere Vortrainingsmethoden auf verschiedenen Benchmark-Datensätzen im Bereich der Bildverarbeitung, einschließlich der Klassifikation von ImageNet, der Objekterkennung in COCO, der langschweifigen Objekterkennung in LVIS und der semantischen Segmentierung in ADE20k. Bemerkenswerterweise gelingt es uns, einen Bildbackbone mit Milliardenparametern erfolgreich zu vortrainieren und den aktuellen Stand der Technik auf verschiedenen Benchmarks zu erreichen. Der Code wird unter https://github.com/OpenGVLab/M3I-Pretraining veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp