vor 4 Monaten

OmniVec2 – Ein neuartiges auf Transformer basierendes Netzwerk für große Skalen multimodale und multitask Lernaufgaben

{Gaurav Sharma Siddharth Srivastava}

Abstract

Wir präsentieren ein neuartiges multimodales Multitask-Netzwerk sowie einen dazugehörigen Trainingsalgorithmus. Die Methode ist in der Lage, Daten aus etwa 12 verschiedenen Modalitäten aufzunehmen, nämlich Bilder, Videos, Audio, Text, Tiefeninformationen, Punktwolken, Zeitreihen, tabellarische Daten, Graphen, Röntgenbilder, Infrarotdaten, IMU-Daten und hyperspektrale Daten. Der vorgeschlagene Ansatz nutzt modality-spezifische Tokenizer, eine gemeinsame Transformer-Architektur sowie Kreuz-Attention-Mechanismen, um die Daten verschiedener Modalitäten in einen einheitlichen Embedding-Raum zu projizieren. Die Behandlung multimodaler und multitask-basierter Szenarien erfolgt durch die Integration modality-spezifischer Task-Head-Module für unterschiedliche Aufgaben jeweils in den entsprechenden Modalitäten. Wir schlagen eine neuartige Vortrainingsstrategie mit iterativem Modality-Switching zur Initialisierung des Netzwerks sowie einen Trainingsalgorithmus vor, der zwischen einer vollständig gemeinsamen Trainingsoptimierung über alle Modalitäten und dem Training mit jeweils Paaren von Modalitäten abwägt. Wir führen eine umfassende Evaluation an 25 Datensätzen aus 12 Modalitäten durch und zeigen state-of-the-art-Leistungen, was die Wirksamkeit der vorgeschlagenen Architektur, der Vortrainingsstrategie sowie des angepassten Multitask-Trainings belegt.

Benchmarks

Benchmark	Methodik	Metriken
3d-point-cloud-classification-on-modelnet40-c	OmniVec2	Error Rate: 0.142
3d-point-cloud-classification-on-scanobjectnn	OmniVec2	Overall Accuracy: 97.2
action-classification-on-kinetics-400	OmniVec2	Acc@1: 93.6
action-classification-on-moments-in-time	OmniVec2	Top 1 Accuracy: 53.1
action-classification-on-moments-in-time-2	OmniVec2	Top 1 Accuracy: 53.1
action-recognition-in-videos-on-ucf101	OmniVec2	3-fold Accuracy: 99.6
audio-classification-on-audioset	OmniVec2	Test mAP: 0.558
audio-classification-on-esc-50	OmniVec2	Accuracy (5-fold): 99.1 PRE-TRAINING DATASET: Multiple Top-1 Accuracy: 99.1
fine-grained-image-classification-on-oxford-1	OmniVec2	Accuracy: 99.6
image-classification-on-imagenet	OmniVec2	Top 1 Accuracy: 89.3%
image-classification-on-inaturalist-2018	OmniVec2	Top-1 Accuracy: 94.6
image-classification-on-places365	OmniVec2	Top 1 Accuracy: 65.1
semantic-segmentation-on-nyu-depth-v2	OmniVec2	Mean IoU: 63.6
text-summarization-on-dialogsum	OmniVec2	BertScore: 72.8 Rouge1: 47.6 Rouge2: 22.1 RougeL: 41.4
text-summarization-on-samsum-corpus	OmniVec2	BertScoreF1: 65.1 ROUGE-1: 59.1 ROUGE-2: 34.1 ROUGE-L: 63.7
zero-shot-video-retrieval-on-youcook2	OmniVec2	text-to-video R@1: 26.1 text-to-video R@10: 70.8 text-to-video R@5: 54.1

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp