Command Palette

Search for a command to run...

4달 전

OmniVec2 - 대규모 다중모달 및 다중태스크 학습을 위한 새로운 트랜스포머 기반 네트워크

{Gaurav Sharma Siddharth Srivastava}

OmniVec2 - 대규모 다중모달 및 다중태스크 학습을 위한 새로운 트랜스포머 기반 네트워크

초록

우리는 새로운 다중 모달 다중 작업 네트워크 및 관련 학습 알고리즘을 제안한다. 이 방법은 이미지, 동영상, 음성, 텍스트, 깊이, 포인트 클라우드, 시계열 데이터, 표형 데이터, 그래프, X선, 적외선, 자이로스코프(IMU), 초분광 데이터 등 약 12개의 서로 다른 모달리티로부터 데이터를 입력받을 수 있다. 제안하는 접근법은 모달리티별 전용 토크나이저(tokenizer), 공유된 트랜스포머 아키텍처, 그리고 크로스 어텐션 메커니즘을 활용하여 다양한 모달리티의 데이터를 통합된 임베딩 공간으로 매핑한다. 각 모달리티에 맞는 작업 헤드(task head)를 도입함으로써 다중 모달 및 다중 작업 환경을 효과적으로 다룬다. 또한, 네트워크 초기화를 위한 반복적인 모달리티 전환 기반의 새로운 사전 학습 전략과, 모든 모달리티에 대해 완전한 공동 학습을 수행하는 대신, 두 개의 모달리티씩 순차적으로 학습하는 학습 알고리즘을 제안한다. 제안된 아키텍처, 사전 학습 전략 및 적응형 다중 작업 학습 방식의 효과를 검증하기 위해 12개의 모달리티에서 나온 25개의 데이터셋을 대상으로 포괄적인 평가를 수행하였으며, 최신 기술 수준(SOTA)의 성능을 입증하였다.

벤치마크

벤치마크방법론지표
3d-point-cloud-classification-on-modelnet40-cOmniVec2
Error Rate: 0.142
3d-point-cloud-classification-on-scanobjectnnOmniVec2
Overall Accuracy: 97.2
action-classification-on-kinetics-400OmniVec2
Acc@1: 93.6
action-classification-on-moments-in-timeOmniVec2
Top 1 Accuracy: 53.1
action-classification-on-moments-in-time-2OmniVec2
Top 1 Accuracy: 53.1
action-recognition-in-videos-on-ucf101OmniVec2
3-fold Accuracy: 99.6
audio-classification-on-audiosetOmniVec2
Test mAP: 0.558
audio-classification-on-esc-50OmniVec2
Accuracy (5-fold): 99.1
PRE-TRAINING DATASET: Multiple
Top-1 Accuracy: 99.1
fine-grained-image-classification-on-oxford-1OmniVec2
Accuracy: 99.6
image-classification-on-imagenetOmniVec2
Top 1 Accuracy: 89.3%
image-classification-on-inaturalist-2018OmniVec2
Top-1 Accuracy: 94.6
image-classification-on-places365OmniVec2
Top 1 Accuracy: 65.1
semantic-segmentation-on-nyu-depth-v2OmniVec2
Mean IoU: 63.6
text-summarization-on-dialogsumOmniVec2
BertScore: 72.8
Rouge1: 47.6
Rouge2: 22.1
RougeL: 41.4
text-summarization-on-samsum-corpusOmniVec2
BertScoreF1: 65.1
ROUGE-1: 59.1
ROUGE-2: 34.1
ROUGE-L: 63.7
zero-shot-video-retrieval-on-youcook2OmniVec2
text-to-video R@1: 26.1
text-to-video R@10: 70.8
text-to-video R@5: 54.1

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
OmniVec2 - 대규모 다중모달 및 다중태스크 학습을 위한 새로운 트랜스포머 기반 네트워크 | 연구 논문 | HyperAI초신경