Command Palette
Search for a command to run...
ONE-PEACE: Untersuchung eines allgemeinen Repräsentationsmodells für unbegrenzte Modalitäten
ONE-PEACE: Untersuchung eines allgemeinen Repräsentationsmodells für unbegrenzte Modalitäten
Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou
Zusammenfassung
In dieser Arbeit untersuchen wir eine skalierbare Methode zur Entwicklung eines allgemeinen Repräsentationsmodells für eine unbegrenzte Anzahl an Modalitäten. Wir stellen ONE-PEACE vor, ein hochgradig erweiterbares Modell mit 4 Milliarden Parametern, das die Repräsentationen nahtlos zwischen den Modalitäten Vision, Audio und Sprache ausrichtet und integriert. Die Architektur von ONE-PEACE besteht aus Modality-Adaptern, gemeinsamen Selbst-Attention-Schichten und modality-spezifischen Feed-Forward-Netzwerken (FFNs). Dieser Entwurf ermöglicht die einfache Erweiterung um neue Modalitäten durch Hinzufügen von Adpartern und FFNs, während gleichzeitig eine multimodale Fusionsfähigkeit über die Selbst-Attention-Schichten gewährleistet wird. Zur Vortrainierung von ONE-PEACE entwickeln wir zwei modality-agnostische Vortrainierungsaufgaben: Cross-Modal-Aligning-Contrast und Intra-Modal-Denoising-Contrast. Diese Aufgaben richten gleichzeitig den semantischen Raum verschiedener Modalitäten aus und erfassen feinabgestufte Details innerhalb jeder Modality. Aufgrund der skalierungsfreundlichen Architektur und der Vortrainierungsaufgaben besitzt ONE-PEACE das Potenzial, sich auf eine unbegrenzte Anzahl von Modalitäten auszudehnen. Ohne die Verwendung von vortrainierten Modellen für Vision oder Sprache zur Initialisierung erreicht ONE-PEACE führende Ergebnisse auf einer Vielzahl ein- und multimodaler Aufgaben, darunter Bildklassifikation (ImageNet), semantische Segmentierung (ADE20K), Audio-Text-Abfrage (AudioCaps, Clotho), Audio-Klassifikation (ESC-50, FSD50K, VGGSound), Audio-Fragenbeantwortung (AVQA), Bild-Text-Abfrage (MSCOCO, Flickr30K) sowie visuelle Grundlage (RefCOCO/+/g). Der Quellcode ist unter https://github.com/OFA-Sys/ONE-PEACE verfügbar.