HyperAIHyperAI
vor 11 Tagen

ONE-PEACE: Untersuchung eines allgemeinen Repräsentationsmodells für unbegrenzte Modalitäten

Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou
ONE-PEACE: Untersuchung eines allgemeinen Repräsentationsmodells für unbegrenzte Modalitäten
Abstract

In dieser Arbeit untersuchen wir eine skalierbare Methode zur Entwicklung eines allgemeinen Repräsentationsmodells für eine unbegrenzte Anzahl an Modalitäten. Wir stellen ONE-PEACE vor, ein hochgradig erweiterbares Modell mit 4 Milliarden Parametern, das die Repräsentationen nahtlos zwischen den Modalitäten Vision, Audio und Sprache ausrichtet und integriert. Die Architektur von ONE-PEACE besteht aus Modality-Adaptern, gemeinsamen Selbst-Attention-Schichten und modality-spezifischen Feed-Forward-Netzwerken (FFNs). Dieser Entwurf ermöglicht die einfache Erweiterung um neue Modalitäten durch Hinzufügen von Adpartern und FFNs, während gleichzeitig eine multimodale Fusionsfähigkeit über die Selbst-Attention-Schichten gewährleistet wird. Zur Vortrainierung von ONE-PEACE entwickeln wir zwei modality-agnostische Vortrainierungsaufgaben: Cross-Modal-Aligning-Contrast und Intra-Modal-Denoising-Contrast. Diese Aufgaben richten gleichzeitig den semantischen Raum verschiedener Modalitäten aus und erfassen feinabgestufte Details innerhalb jeder Modality. Aufgrund der skalierungsfreundlichen Architektur und der Vortrainierungsaufgaben besitzt ONE-PEACE das Potenzial, sich auf eine unbegrenzte Anzahl von Modalitäten auszudehnen. Ohne die Verwendung von vortrainierten Modellen für Vision oder Sprache zur Initialisierung erreicht ONE-PEACE führende Ergebnisse auf einer Vielzahl ein- und multimodaler Aufgaben, darunter Bildklassifikation (ImageNet), semantische Segmentierung (ADE20K), Audio-Text-Abfrage (AudioCaps, Clotho), Audio-Klassifikation (ESC-50, FSD50K, VGGSound), Audio-Fragenbeantwortung (AVQA), Bild-Text-Abfrage (MSCOCO, Flickr30K) sowie visuelle Grundlage (RefCOCO/+/g). Der Quellcode ist unter https://github.com/OFA-Sys/ONE-PEACE verfügbar.

ONE-PEACE: Untersuchung eines allgemeinen Repräsentationsmodells für unbegrenzte Modalitäten | Neueste Forschungsarbeiten | HyperAI