4달 전

OmniVec2 - 대규모 다중모달 및 다중태스크 학습을 위한 새로운 트랜스포머 기반 네트워크

{Gaurav Sharma Siddharth Srivastava}

초록

우리는 새로운 다중 모달 다중 작업 네트워크 및 관련 학습 알고리즘을 제안한다. 이 방법은 이미지, 동영상, 음성, 텍스트, 깊이, 포인트 클라우드, 시계열 데이터, 표형 데이터, 그래프, X선, 적외선, 자이로스코프(IMU), 초분광 데이터 등 약 12개의 서로 다른 모달리티로부터 데이터를 입력받을 수 있다. 제안하는 접근법은 모달리티별 전용 토크나이저(tokenizer), 공유된 트랜스포머 아키텍처, 그리고 크로스 어텐션 메커니즘을 활용하여 다양한 모달리티의 데이터를 통합된 임베딩 공간으로 매핑한다. 각 모달리티에 맞는 작업 헤드(task head)를 도입함으로써 다중 모달 및 다중 작업 환경을 효과적으로 다룬다. 또한, 네트워크 초기화를 위한 반복적인 모달리티 전환 기반의 새로운 사전 학습 전략과, 모든 모달리티에 대해 완전한 공동 학습을 수행하는 대신, 두 개의 모달리티씩 순차적으로 학습하는 학습 알고리즘을 제안한다. 제안된 아키텍처, 사전 학습 전략 및 적응형 다중 작업 학습 방식의 효과를 검증하기 위해 12개의 모달리티에서 나온 25개의 데이터셋을 대상으로 포괄적인 평가를 수행하였으며, 최신 기술 수준(SOTA)의 성능을 입증하였다.

벤치마크

벤치마크	방법론	지표
3d-point-cloud-classification-on-modelnet40-c	OmniVec2	Error Rate: 0.142
3d-point-cloud-classification-on-scanobjectnn	OmniVec2	Overall Accuracy: 97.2
action-classification-on-kinetics-400	OmniVec2	Acc@1: 93.6
action-classification-on-moments-in-time	OmniVec2	Top 1 Accuracy: 53.1
action-classification-on-moments-in-time-2	OmniVec2	Top 1 Accuracy: 53.1
action-recognition-in-videos-on-ucf101	OmniVec2	3-fold Accuracy: 99.6
audio-classification-on-audioset	OmniVec2	Test mAP: 0.558
audio-classification-on-esc-50	OmniVec2	Accuracy (5-fold): 99.1 PRE-TRAINING DATASET: Multiple Top-1 Accuracy: 99.1
fine-grained-image-classification-on-oxford-1	OmniVec2	Accuracy: 99.6
image-classification-on-imagenet	OmniVec2	Top 1 Accuracy: 89.3%
image-classification-on-inaturalist-2018	OmniVec2	Top-1 Accuracy: 94.6
image-classification-on-places365	OmniVec2	Top 1 Accuracy: 65.1
semantic-segmentation-on-nyu-depth-v2	OmniVec2	Mean IoU: 63.6
text-summarization-on-dialogsum	OmniVec2	BertScore: 72.8 Rouge1: 47.6 Rouge2: 22.1 RougeL: 41.4
text-summarization-on-samsum-corpus	OmniVec2	BertScoreF1: 65.1 ROUGE-1: 59.1 ROUGE-2: 34.1 ROUGE-L: 63.7
zero-shot-video-retrieval-on-youcook2	OmniVec2	text-to-video R@1: 26.1 text-to-video R@10: 70.8 text-to-video R@5: 54.1

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

OmniVec2 - 대규모 다중모달 및 다중태스크 학습을 위한 새로운 트랜스포머 기반 네트워크

{Gaurav Sharma Siddharth Srivastava}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters