HyperAIHyperAI
vor 12 Tagen

OmniVec2 – Ein neuartiges auf Transformer basierendes Netzwerk für große Skalen multimodale und multitask Lernaufgaben

{Gaurav Sharma, Siddharth Srivastava}
OmniVec2 – Ein neuartiges auf Transformer basierendes Netzwerk für große Skalen multimodale und multitask Lernaufgaben
Abstract

Wir präsentieren ein neuartiges multimodales Multitask-Netzwerk sowie einen dazugehörigen Trainingsalgorithmus. Die Methode ist in der Lage, Daten aus etwa 12 verschiedenen Modalitäten aufzunehmen, nämlich Bilder, Videos, Audio, Text, Tiefeninformationen, Punktwolken, Zeitreihen, tabellarische Daten, Graphen, Röntgenbilder, Infrarotdaten, IMU-Daten und hyperspektrale Daten. Der vorgeschlagene Ansatz nutzt modality-spezifische Tokenizer, eine gemeinsame Transformer-Architektur sowie Kreuz-Attention-Mechanismen, um die Daten verschiedener Modalitäten in einen einheitlichen Embedding-Raum zu projizieren. Die Behandlung multimodaler und multitask-basierter Szenarien erfolgt durch die Integration modality-spezifischer Task-Head-Module für unterschiedliche Aufgaben jeweils in den entsprechenden Modalitäten. Wir schlagen eine neuartige Vortrainingsstrategie mit iterativem Modality-Switching zur Initialisierung des Netzwerks sowie einen Trainingsalgorithmus vor, der zwischen einer vollständig gemeinsamen Trainingsoptimierung über alle Modalitäten und dem Training mit jeweils Paaren von Modalitäten abwägt. Wir führen eine umfassende Evaluation an 25 Datensätzen aus 12 Modalitäten durch und zeigen state-of-the-art-Leistungen, was die Wirksamkeit der vorgeschlagenen Architektur, der Vortrainingsstrategie sowie des angepassten Multitask-Trainings belegt.