HyperAIHyperAI
vor 2 Monaten

OmniVec: Robustes Lernen von Repräsentationen durch modalkreuzende Teileinteilung

Srivastava, Siddharth ; Sharma, Gaurav
OmniVec: Robustes Lernen von Repräsentationen durch modalkreuzende Teileinteilung
Abstract

Die Mehrheit der Forschung im Bereich lernbasierter Methoden richtet sich auf die Gestaltung und Schulung von Netzwerken für spezifische Aufgaben. Viele dieser lernbasierten Aufgaben, über verschiedene Modalitäten hinweg, teilen jedoch Gemeinsamkeiten und könnten potentiell in einem gemeinsamen Framework angegangen werden. Wir präsentieren einen Ansatz in diese Richtung, um mehrere Aufgaben in verschiedenen Modalitäten mit einer einheitlichen Architektur zu erlernen. Das vorgeschlagene Netzwerk besteht aus aufgabenspezifischen Encodern, einem gemeinsamen Trunk in der Mitte und anschließend aus aufgabenspezifischen Vorhersageköpfen (prediction heads). Zunächst führen wir eine selbstüberwachte Maskierungsschulung durch, gefolgt von sequentieller Schulung für die verschiedenen Aufgaben. Wir schulen das Netzwerk auf allen wichtigen Modalitäten, wie zum Beispiel visuell, audio, Text und 3D, und geben Ergebnisse für 22 verschiedene und anspruchsvolle öffentliche Benchmarks an. Wir zeigen empirisch, dass die Verwendung eines gemeinsamen Netzes zur Schulung über verschiedene Modalitäten hinweg zu sinnvoller Informationsaustausch führt und uns ermöglicht, bei den meisten Benchmarks Spitzenleistungen zu erzielen. Darüber hinaus demonstrieren wir die Generalisierung des geschulten Netzes sowohl bei cross-modalen Aufgaben als auch bei unbekannten Datensätzen und Aufgaben.

OmniVec: Robustes Lernen von Repräsentationen durch modalkreuzende Teileinteilung | Neueste Forschungsarbeiten | HyperAI