HyperAIHyperAI

Command Palette

Search for a command to run...

다중모달 언급 세그멘테이션: 종합적 고찰

Henghui Ding Song Tang Shuting He Chang Liu Zuxuan Wu Yu-Gang Jiang

초록

다중모달 참조 세그멘테이션은 텍스트 또는 음성 형식의 참조 표현을 기반으로 이미지, 영상, 3D 시각적 장면 등 다양한 시각적 환경 속에서 대상 객체를 세그멘테이션하는 것을 목표로 한다. 이 작업은 사용자 지시에 기반한 정확한 객체 인지가 필요한 실용적 응용 분야에서 핵심적인 역할을 한다. 지난 10년간 컨볼루션 신경망, 트랜스포머, 대규모 언어 모델의 발전에 힘입어 다중모달 커뮤니티에서 큰 주목을 받으며, 다중모달 인지 능력이 크게 향상되었다. 본 논문은 다중모달 참조 세그멘테이션 분야에 대한 포괄적인 조사 보고서를 제공한다. 먼저, 이 분야의 배경을 소개하며 문제 정의 및 일반적으로 사용되는 데이터셋들을 설명한다. 이후 참조 세그멘테이션을 위한 통합된 메타 아키텍처를 요약하고, 이미지, 영상, 3D 장면 등 세 가지 주요 시각적 환경에서의 대표적 방법들을 검토한다. 또한 현실 세계의 복잡성에 대응하기 위한 일반화된 참조 표현(GREx, Generalized Referring Expression) 기법과 관련된 작업 및 실용적 응용 사례를 논의한다. 표준 벤치마크에서의 광범위한 성능 비교 결과도 제시한다. 관련 연구 동향은 지속적으로 업데이트되며, GitHub 페이지(https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation)에서 확인할 수 있다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중모달 언급 세그멘테이션: 종합적 고찰 | 문서 | HyperAI초신경