2달 전

다중 모드 의미 분할을 위한 효율적인 듀얼 프롬프트 학습

Shaohua Dong; Yunhe Feng; Qing Yang; Yan Huang; Dongfang Liu; Heng Fan
다중 모드 의미 분할을 위한 효율적인 듀얼 프롬프트 학습
초록

다중 모드(RGB-깊이/RGB-열화상) 융합은 복잡한 환경(예: 실내/저조도 조건)에서 의미 분할을 개선하는 데 큰 잠재력을 보여주고 있습니다. 기존 접근 방식은 대부분 복잡한 특성 융합 전략을 사용하여 듀얼 브랜치 인코더-디코더 프레임워크를 완전히 미세 조정하여 다중 모드 의미 분할을 달성하려고 합니다. 이는 특성 추출 및 융합 과정에서 대규모 매개변수 업데이트로 인해 훈련 비용이 많이 들기 때문에 문제가 됩니다. 이러한 문제를 해결하기 위해, 우리는 훈련 효율성이 높은 다중 모드(RGB-D/T) 의미 분할을 위한 매우 간단하면서도 효과적인 듀얼 프롬프트 학습 네트워크(DPLNet)를 제안합니다.DPLNet의 핵심은 동결된 사전 훈련된 RGB 모델을 직접 다중 모드 의미 분할에 적응시키는 것입니다. 이를 통해 매개변수 업데이트를 줄일 수 있습니다. 이를 위해 우리는 두 가지 프롬프트 학습 모듈, 즉 다중 모드 프롬프트 생성기(MPG)와 다중 모드 특성 어댑터(MFA)를 제시합니다. MPG는 다른 모드에서 온 특성을 압축적으로 융합하며, 그림자부터 깊은 단계까지 삽입되어 동결된 백본에 여러 단계의 다중 모드 프롬프트를 생성하고 주입합니다. 반면에 MFA는 동결된 백본 내에서 주입된 다중 모드 특성을 적응시켜 더 나은 다중 모드 의미 분할을 수행합니다. MPG와 MFA 모두 경량화되어 있어, 다중 모드 특성 융합 및 학습에 필요한 몇 개의 학습 가능한 매개변수(3.88M, 사전 훈련된 백본 매개변수의 4.4%)만 추가됩니다.간단한 디코더(3.27M 매개변수)를 사용하여 DPLNet은 네 개의 RGB-D/T 의미 분할 데이터셋에서 새로운 최신 성능을 달성하거나 다른 복잡한 접근 방식과 맞먹는 성능을 보여주며, 동시에 매개변수 효율성을 만족시킵니다. 또한, 우리는 DPLNet이 일반적이며 다른 다중 모드 작업(예: 주요 객체 검출 및 비디오 의미 분할)에도 적용될 수 있음을 보여줍니다. 특별한 설계 없이도 DPLNet은 많은 복잡한 모델들을 능가합니다. 우리의 코드는 github.com/ShaohuaDong2021/DPLNet에서 제공될 예정입니다.

다중 모드 의미 분할을 위한 효율적인 듀얼 프롬프트 학습 | 최신 연구 논문 | HyperAI초신경