2달 전

StitchFusion: 다양한 시각적 모드를 엮어 다중모달 의미 분할을 향상시키다

Bingyu Li; Da Zhang; Zhiyuan Zhao; Junyu Gao; Xuelong Li
StitchFusion: 다양한 시각적 모드를 엮어 다중모달 의미 분할을 향상시키다
초록

다중 모드 의미 분할은 복잡한 장면에서 분할 정확도를 향상시키는 데 상당한 잠재력을 보여줍니다. 그러나 현재의 방법들은 종종 특정 모드에 맞춤화된 특성 융합 모듈을 통합하여 입력 유연성을 제한하고 학습 매개변수의 수를 증가시키는 경향이 있습니다. 이러한 도전 과제를 해결하기 위해, 우리는 스티치융합(StitchFusion)이라는 간단하면서도 효과적인 다중 모드 융합 프레임워크를 제안합니다. 이 접근 방식은 대규모 사전 학습 모델을 직접 인코더와 특성 융합기로 통합하여 모든 시각적 모드 입력을 수용하는 포괄적인 다중 모드 및 다중 스케일 특성 융합을 촉진합니다.특히, 우리의 프레임워크는 인코딩 과정에서 다중 모드 시각 정보를 공유함으로써 모달 통합을 달성합니다. 또한, 다양한 모달 간의 정보 교환을 강화하기 위해, 우리는 인코딩 과정 중에 크로스-모달 정보 전송을 가능하게 하는 다방향 어댑터 모듈(MultiAdapter)을 소개합니다. 스티치융합은 MultiAdapter를 활용하여 사전 학습된 인코더들 사이에서 다중 스케일 정보를 전파함으로써 인코딩 과정에서 다중 모달 시각 정보 통합을 실현합니다.광범위한 비교 실험 결과, 우리의 모델은 최소한의 추가 매개변수로 네 개의 다중 모달 분할 데이터셋에서 최고 수준의 성능을 달성했습니다. 또한, 기존의 특성 융합 모듈(FFM)들과 MultiAdapter의 실험적 통합은 그들의 보완적 성격을 강조합니다. 우리의 코드는 StitchFusion_repo에서 제공됩니다.

StitchFusion: 다양한 시각적 모드를 엮어 다중모달 의미 분할을 향상시키다 | 최신 연구 논문 | HyperAI초신경