HyperAIHyperAI

Command Palette

Search for a command to run...

OmniVec: Robustes Lernen von Repräsentationen durch modalkreuzende Teileinteilung

Siddharth Srivastava Gaurav Sharma

Zusammenfassung

Die Mehrheit der Forschung im Bereich lernbasierter Methoden richtet sich auf die Gestaltung und Schulung von Netzwerken für spezifische Aufgaben. Viele dieser lernbasierten Aufgaben, über verschiedene Modalitäten hinweg, teilen jedoch Gemeinsamkeiten und könnten potentiell in einem gemeinsamen Framework angegangen werden. Wir präsentieren einen Ansatz in diese Richtung, um mehrere Aufgaben in verschiedenen Modalitäten mit einer einheitlichen Architektur zu erlernen. Das vorgeschlagene Netzwerk besteht aus aufgabenspezifischen Encodern, einem gemeinsamen Trunk in der Mitte und anschließend aus aufgabenspezifischen Vorhersageköpfen (prediction heads). Zunächst führen wir eine selbstüberwachte Maskierungsschulung durch, gefolgt von sequentieller Schulung für die verschiedenen Aufgaben. Wir schulen das Netzwerk auf allen wichtigen Modalitäten, wie zum Beispiel visuell, audio, Text und 3D, und geben Ergebnisse für 22 verschiedene und anspruchsvolle öffentliche Benchmarks an. Wir zeigen empirisch, dass die Verwendung eines gemeinsamen Netzes zur Schulung über verschiedene Modalitäten hinweg zu sinnvoller Informationsaustausch führt und uns ermöglicht, bei den meisten Benchmarks Spitzenleistungen zu erzielen. Darüber hinaus demonstrieren wir die Generalisierung des geschulten Netzes sowohl bei cross-modalen Aufgaben als auch bei unbekannten Datensätzen und Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp