HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

OmniVec2 – Ein neuartiges auf Transformer basierendes Netzwerk für große Skalen multimodale und multitask Lernaufgaben

{Gaurav Sharma Siddharth Srivastava}

OmniVec2 – Ein neuartiges auf Transformer basierendes Netzwerk für große Skalen multimodale und multitask Lernaufgaben

Abstract

Wir präsentieren ein neuartiges multimodales Multitask-Netzwerk sowie einen dazugehörigen Trainingsalgorithmus. Die Methode ist in der Lage, Daten aus etwa 12 verschiedenen Modalitäten aufzunehmen, nämlich Bilder, Videos, Audio, Text, Tiefeninformationen, Punktwolken, Zeitreihen, tabellarische Daten, Graphen, Röntgenbilder, Infrarotdaten, IMU-Daten und hyperspektrale Daten. Der vorgeschlagene Ansatz nutzt modality-spezifische Tokenizer, eine gemeinsame Transformer-Architektur sowie Kreuz-Attention-Mechanismen, um die Daten verschiedener Modalitäten in einen einheitlichen Embedding-Raum zu projizieren. Die Behandlung multimodaler und multitask-basierter Szenarien erfolgt durch die Integration modality-spezifischer Task-Head-Module für unterschiedliche Aufgaben jeweils in den entsprechenden Modalitäten. Wir schlagen eine neuartige Vortrainingsstrategie mit iterativem Modality-Switching zur Initialisierung des Netzwerks sowie einen Trainingsalgorithmus vor, der zwischen einer vollständig gemeinsamen Trainingsoptimierung über alle Modalitäten und dem Training mit jeweils Paaren von Modalitäten abwägt. Wir führen eine umfassende Evaluation an 25 Datensätzen aus 12 Modalitäten durch und zeigen state-of-the-art-Leistungen, was die Wirksamkeit der vorgeschlagenen Architektur, der Vortrainingsstrategie sowie des angepassten Multitask-Trainings belegt.

Benchmarks

BenchmarkMethodikMetriken
3d-point-cloud-classification-on-modelnet40-cOmniVec2
Error Rate: 0.142
3d-point-cloud-classification-on-scanobjectnnOmniVec2
Overall Accuracy: 97.2
action-classification-on-kinetics-400OmniVec2
Acc@1: 93.6
action-classification-on-moments-in-timeOmniVec2
Top 1 Accuracy: 53.1
action-classification-on-moments-in-time-2OmniVec2
Top 1 Accuracy: 53.1
action-recognition-in-videos-on-ucf101OmniVec2
3-fold Accuracy: 99.6
audio-classification-on-audiosetOmniVec2
Test mAP: 0.558
audio-classification-on-esc-50OmniVec2
Accuracy (5-fold): 99.1
PRE-TRAINING DATASET: Multiple
Top-1 Accuracy: 99.1
fine-grained-image-classification-on-oxford-1OmniVec2
Accuracy: 99.6
image-classification-on-imagenetOmniVec2
Top 1 Accuracy: 89.3%
image-classification-on-inaturalist-2018OmniVec2
Top-1 Accuracy: 94.6
image-classification-on-places365OmniVec2
Top 1 Accuracy: 65.1
semantic-segmentation-on-nyu-depth-v2OmniVec2
Mean IoU: 63.6
text-summarization-on-dialogsumOmniVec2
BertScore: 72.8
Rouge1: 47.6
Rouge2: 22.1
RougeL: 41.4
text-summarization-on-samsum-corpusOmniVec2
BertScoreF1: 65.1
ROUGE-1: 59.1
ROUGE-2: 34.1
ROUGE-L: 63.7
zero-shot-video-retrieval-on-youcook2OmniVec2
text-to-video R@1: 26.1
text-to-video R@10: 70.8
text-to-video R@5: 54.1

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OmniVec2 – Ein neuartiges auf Transformer basierendes Netzwerk für große Skalen multimodale und multitask Lernaufgaben | Forschungsarbeiten | HyperAI