OPT: Omni-Perception Pre-Trainer für die cross-modale Verständnisbildung und Generierung

In diesem Paper stellen wir einen Omni-Perception Pre-Trainer (OPT) für die multimodale Verständnis- und Generierungsaufgabe vor, indem visuelle, textuelle und auditive Ressourcen gemeinsam modelliert werden. OPT basiert auf einem Encoder-Decoder-Framework und umfasst drei einmodale Encoder zur Erzeugung tokenbasierter Embeddings für jede Modalität, einen multimodalen Encoder zur Kodierung der Korrelationen zwischen den drei Modalitäten sowie zwei multimodale Decoder zur jeweiligen Generierung von Text und Bild. Für das Vortrainieren von OPT entwickeln wir ein Multi-Task-Pretext-Lernschema, das multimodale Ressourcen auf drei unterschiedlichen Datengranularitäten modelliert – nämlich auf Token-, Modalitäts- und Sample-Ebene –, wodurch OPT lernt, zwischen den verschiedenen Modalitäten zu alignen und zu übersetzen. Das Vortrainieren erfolgt auf einer großen Menge an Bild-Text-Audio-Tripeln aus Open Images. Experimentelle Ergebnisse zeigen, dass OPT starke multimodale Repräsentationen für Bild, Text und Audio erlernen kann und auf einer Vielzahl von Aufgaben im Bereich multimodales Verständnis und Generierung vielversprechende Ergebnisse erzielt.