Command Palette
Search for a command to run...
SAM3: 시각적 분할 모델
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

SAM3는 Meta AI에서 2025년 11월에 출시한 고급 컴퓨터 비전 모델입니다. 이 모델은 텍스트, 예시, 시각적 단서를 활용하여 이미지와 비디오에서 객체를 감지, 분할, 추적할 수 있습니다. 개방형 어휘 구문 입력을 지원하고, 강력한 크로스모달 상호작용 기능을 갖추고 있으며, 분할 결과를 실시간으로 수정할 수 있습니다. SAM3는 이미지 및 비디오 분할 작업에서 기존 시스템보다 두 배 이상 뛰어난 성능을 제공하며, 제로샷 학습을 지원합니다. 또한 3D 재구성까지 확장 가능하여 홈 프리뷰, 창의적인 비디오 편집, 과학 연구 등 다양한 시나리오에 적용될 수 있어 컴퓨터 비전의 미래 발전에 강력한 동력을 제공합니다. 관련 연구 논문은 별도로 제공됩니다. SAM 3: 개념을 사용하여 모든 것을 세분화하세요 .
이 튜토리얼은 기본적으로 RTX 5090 그래픽 카드 하나를 사용하지만, 최소 RTX 4090 카드 하나로 시작할 수 있습니다. 테스트를 위해 이미지 분할, 비디오 텍스트 프롬프트, 비디오 포인트/박스 프롬프트의 세 가지 예시가 제공됩니다. 이 모델은 영어 입력만 지원합니다.
2. 효과 표시


3. 작업 단계
1. 컨테이너를 시작하세요

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
1. 이미지 분할

구체적인 매개변수:
- 텍스트 프롬프트: 여기에 텍스트를 입력할 수 있습니다.
- 탐지 임계값: 임계값이 높을수록 탐지되는 대상의 수가 줄어듭니다.
- 마스크 임계값: 임계값이 높을수록 생성되는 마스크 경계가 더 명확하고 날카로워집니다.
2. 비디오 텍스트 프롬프트

구체적인 매개변수:
- 텍스트 프롬프트: 여기에 텍스트를 입력할 수 있습니다.
- 비디오 전체에 전파: 이 버튼을 클릭하면 대상의 비디오 추적이 수행됩니다.
3. 비디오 포인트/박스 프롬프팅

구체적인 매개변수:
- 객체 ID: 감지된 대상 ID입니다.
- 포인트 라벨:
- 양수: 이미지의 위치를 클릭했을 때, 그 위치가 양수이면, 해당 지점이 분할하려는 대상 객체에 속한다는 의미이므로 계산에 포함하세요.
- 음수: 이미지의 위치를 클릭할 때 음수이면 해당 지점이 대상 객체(배경이나 다른 것)에 속하지 않는다는 의미이므로 제거하세요.
- 이 개체에 대한 이전 입력을 지웁니다. 이전에 감지된 대상을 지울지 여부입니다.
- 프롬프트 유형:
- 포인트: 시각적 신호를 클릭하세요.
- 상자: 항목을 선택하기 위한 시각적 신호.

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@misc{carion2025sam3segmentconcepts,
title={SAM 3: Segment Anything with Concepts},
author={Nicolas Carion and Laura Gustafson and Yuan-Ting Hu and Shoubhik Debnath and Ronghang Hu and Didac Suris and Chaitanya Ryali and Kalyan Vasudev Alwala and Haitham Khedr and Andrew Huang and Jie Lei and Tengyu Ma and Baishan Guo and Arpit Kalla and Markus Marks and Joseph Greer and Meng Wang and Peize Sun and Roman Rädle and Triantafyllos Afouras and Effrosyni Mavroudi and Katherine Xu and Tsung-Han Wu and Yu Zhou and Liliane Momeni and Rishi Hazra and Shuangrui Ding and Sagar Vaze and Francois Porcher and Feng Li and Siyuan Li and Aishwarya Kamath and Ho Kei Cheng and Piotr Dollár and Nikhila Ravi and Kate Saenko and Pengchuan Zhang and Christoph Feichtenhofer},
year={2025},
eprint={2511.16719},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2511.16719},
}