HyperAIHyperAI

Command Palette

Search for a command to run...

ONE-PEACE: Untersuchung eines allgemeinen Repräsentationsmodells für unbegrenzte Modalitäten

Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou

Zusammenfassung

In dieser Arbeit untersuchen wir eine skalierbare Methode zur Entwicklung eines allgemeinen Repräsentationsmodells für eine unbegrenzte Anzahl an Modalitäten. Wir stellen ONE-PEACE vor, ein hochgradig erweiterbares Modell mit 4 Milliarden Parametern, das die Repräsentationen nahtlos zwischen den Modalitäten Vision, Audio und Sprache ausrichtet und integriert. Die Architektur von ONE-PEACE besteht aus Modality-Adaptern, gemeinsamen Selbst-Attention-Schichten und modality-spezifischen Feed-Forward-Netzwerken (FFNs). Dieser Entwurf ermöglicht die einfache Erweiterung um neue Modalitäten durch Hinzufügen von Adpartern und FFNs, während gleichzeitig eine multimodale Fusionsfähigkeit über die Selbst-Attention-Schichten gewährleistet wird. Zur Vortrainierung von ONE-PEACE entwickeln wir zwei modality-agnostische Vortrainierungsaufgaben: Cross-Modal-Aligning-Contrast und Intra-Modal-Denoising-Contrast. Diese Aufgaben richten gleichzeitig den semantischen Raum verschiedener Modalitäten aus und erfassen feinabgestufte Details innerhalb jeder Modality. Aufgrund der skalierungsfreundlichen Architektur und der Vortrainierungsaufgaben besitzt ONE-PEACE das Potenzial, sich auf eine unbegrenzte Anzahl von Modalitäten auszudehnen. Ohne die Verwendung von vortrainierten Modellen für Vision oder Sprache zur Initialisierung erreicht ONE-PEACE führende Ergebnisse auf einer Vielzahl ein- und multimodaler Aufgaben, darunter Bildklassifikation (ImageNet), semantische Segmentierung (ADE20K), Audio-Text-Abfrage (AudioCaps, Clotho), Audio-Klassifikation (ESC-50, FSD50K, VGGSound), Audio-Fragenbeantwortung (AVQA), Bild-Text-Abfrage (MSCOCO, Flickr30K) sowie visuelle Grundlage (RefCOCO/+/g). Der Quellcode ist unter https://github.com/OFA-Sys/ONE-PEACE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp