다중 모드 학습
모달리티는 사람들이 정보를 받는 구체적인 방식을 말합니다. 멀티미디어 데이터는 종종 여러 유형의 정보를 전송하는 매체입니다(예를 들어, 비디오는 종종 텍스트, 시각 및 청각 정보를 동시에 전송합니다). 따라서 다중 모드 학습은 점차 멀티미디어 콘텐츠 분석 및 이해의 주요 수단으로 발전했습니다.
다중 모드 학습에는 주로 다음과 같은 연구 방향이 포함됩니다.
- 다중 모달 표현 학습: 주로 다중 모달 데이터에 포함된 의미 정보를 실수 값 벡터로 디지털화하는 방법을 연구합니다.
- 인터모달 매핑: 주로 특정 모달리티 데이터의 정보를 다른 모달리티에 매핑하는 방법을 연구합니다.
- 정렬: 주로 서로 다른 모드 사이의 구성 요소와 요소 간의 대응 관계를 식별하는 방법을 연구합니다.
- 퓨전: 주로 다양한 모달리티 간의 모델과 기능을 통합하는 방법을 연구합니다.
- 협력 학습: 주로 정보가 풍부한 방식으로 학습한 지식을 정보가 부족한 방식으로 전환하여 각 방식의 학습이 서로에게 도움이 될 수 있도록 하는 방법을 연구합니다. 전형적인 방법으로는 다중 모드 제로샷 학습, 도메인 적응 등이 있습니다.