Discord에서 논의하기

10달 전

다중모달 표현

세マン틱 세그멘테이션

Henghui Ding Song Tang Shuting He Chang Liu Zuxuan Wu Yu-Gang Jiang

초록

다중모달 참조 세그멘테이션은 텍스트 또는 음성 형식의 참조 표현을 기반으로 이미지, 영상, 3D 시각적 장면 등 다양한 시각적 환경 속에서 대상 객체를 세그멘테이션하는 것을 목표로 한다. 이 작업은 사용자 지시에 기반한 정확한 객체 인지가 필요한 실용적 응용 분야에서 핵심적인 역할을 한다. 지난 10년간 컨볼루션 신경망, 트랜스포머, 대규모 언어 모델의 발전에 힘입어 다중모달 커뮤니티에서 큰 주목을 받으며, 다중모달 인지 능력이 크게 향상되었다. 본 논문은 다중모달 참조 세그멘테이션 분야에 대한 포괄적인 조사 보고서를 제공한다. 먼저, 이 분야의 배경을 소개하며 문제 정의 및 일반적으로 사용되는 데이터셋들을 설명한다. 이후 참조 세그멘테이션을 위한 통합된 메타 아키텍처를 요약하고, 이미지, 영상, 3D 장면 등 세 가지 주요 시각적 환경에서의 대표적 방법들을 검토한다. 또한 현실 세계의 복잡성에 대응하기 위한 일반화된 참조 표현(GREx, Generalized Referring Expression) 기법과 관련된 작업 및 실용적 응용 사례를 논의한다. 표준 벤치마크에서의 광범위한 성능 비교 결과도 제시한다. 관련 연구 동향은 지속적으로 업데이트되며, GitHub 페이지(https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation)에서 확인할 수 있다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

10달 전

다중모달 표현

세マン틱 세그멘테이션

Henghui Ding Song Tang Shuting He Chang Liu Zuxuan Wu Yu-Gang Jiang

초록

다중모달 참조 세그멘테이션은 텍스트 또는 음성 형식의 참조 표현을 기반으로 이미지, 영상, 3D 시각적 장면 등 다양한 시각적 환경 속에서 대상 객체를 세그멘테이션하는 것을 목표로 한다. 이 작업은 사용자 지시에 기반한 정확한 객체 인지가 필요한 실용적 응용 분야에서 핵심적인 역할을 한다. 지난 10년간 컨볼루션 신경망, 트랜스포머, 대규모 언어 모델의 발전에 힘입어 다중모달 커뮤니티에서 큰 주목을 받으며, 다중모달 인지 능력이 크게 향상되었다. 본 논문은 다중모달 참조 세그멘테이션 분야에 대한 포괄적인 조사 보고서를 제공한다. 먼저, 이 분야의 배경을 소개하며 문제 정의 및 일반적으로 사용되는 데이터셋들을 설명한다. 이후 참조 세그멘테이션을 위한 통합된 메타 아키텍처를 요약하고, 이미지, 영상, 3D 장면 등 세 가지 주요 시각적 환경에서의 대표적 방법들을 검토한다. 또한 현실 세계의 복잡성에 대응하기 위한 일반화된 참조 표현(GREx, Generalized Referring Expression) 기법과 관련된 작업 및 실용적 응용 사례를 논의한다. 표준 벤치마크에서의 광범위한 성능 비교 결과도 제시한다. 관련 연구 동향은 지속적으로 업데이트되며, GitHub 페이지(https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation)에서 확인할 수 있다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

다중모달 언급 세그멘테이션: 종합적 고찰 | 문서 | HyperAI초신경