Command Palette
Search for a command to run...
{Gaurav Sharma Siddharth Srivastava}

초록
우리는 새로운 다중 모달 다중 작업 네트워크 및 관련 학습 알고리즘을 제안한다. 이 방법은 이미지, 동영상, 음성, 텍스트, 깊이, 포인트 클라우드, 시계열 데이터, 표형 데이터, 그래프, X선, 적외선, 자이로스코프(IMU), 초분광 데이터 등 약 12개의 서로 다른 모달리티로부터 데이터를 입력받을 수 있다. 제안하는 접근법은 모달리티별 전용 토크나이저(tokenizer), 공유된 트랜스포머 아키텍처, 그리고 크로스 어텐션 메커니즘을 활용하여 다양한 모달리티의 데이터를 통합된 임베딩 공간으로 매핑한다. 각 모달리티에 맞는 작업 헤드(task head)를 도입함으로써 다중 모달 및 다중 작업 환경을 효과적으로 다룬다. 또한, 네트워크 초기화를 위한 반복적인 모달리티 전환 기반의 새로운 사전 학습 전략과, 모든 모달리티에 대해 완전한 공동 학습을 수행하는 대신, 두 개의 모달리티씩 순차적으로 학습하는 학습 알고리즘을 제안한다. 제안된 아키텍처, 사전 학습 전략 및 적응형 다중 작업 학습 방식의 효과를 검증하기 위해 12개의 모달리티에서 나온 25개의 데이터셋을 대상으로 포괄적인 평가를 수행하였으며, 최신 기술 수준(SOTA)의 성능을 입증하였다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| 3d-point-cloud-classification-on-modelnet40-c | OmniVec2 | Error Rate: 0.142 |
| 3d-point-cloud-classification-on-scanobjectnn | OmniVec2 | Overall Accuracy: 97.2 |
| action-classification-on-kinetics-400 | OmniVec2 | Acc@1: 93.6 |
| action-classification-on-moments-in-time | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-classification-on-moments-in-time-2 | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-recognition-in-videos-on-ucf101 | OmniVec2 | 3-fold Accuracy: 99.6 |
| audio-classification-on-audioset | OmniVec2 | Test mAP: 0.558 |
| audio-classification-on-esc-50 | OmniVec2 | Accuracy (5-fold): 99.1 PRE-TRAINING DATASET: Multiple Top-1 Accuracy: 99.1 |
| fine-grained-image-classification-on-oxford-1 | OmniVec2 | Accuracy: 99.6 |
| image-classification-on-imagenet | OmniVec2 | Top 1 Accuracy: 89.3% |
| image-classification-on-inaturalist-2018 | OmniVec2 | Top-1 Accuracy: 94.6 |
| image-classification-on-places365 | OmniVec2 | Top 1 Accuracy: 65.1 |
| semantic-segmentation-on-nyu-depth-v2 | OmniVec2 | Mean IoU: 63.6 |
| text-summarization-on-dialogsum | OmniVec2 | BertScore: 72.8 Rouge1: 47.6 Rouge2: 22.1 RougeL: 41.4 |
| text-summarization-on-samsum-corpus | OmniVec2 | BertScoreF1: 65.1 ROUGE-1: 59.1 ROUGE-2: 34.1 ROUGE-L: 63.7 |
| zero-shot-video-retrieval-on-youcook2 | OmniVec2 | text-to-video R@1: 26.1 text-to-video R@10: 70.8 text-to-video R@5: 54.1 |