온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

시각적 장면에서 임의의 객체를 식별하고 분할하는 능력은 로봇 공학, 콘텐츠 제작, 증강 현실 및 데이터 주석 등 다양한 분야에서 활용되는 멀티모달 인공지능의 핵심 기반입니다. SAM(Segment Anything Model)은 Meta에서 2023년 4월에 발표한 범용 AI 모델로, 이미지와 비디오에 대한 단서 기반 분할 작업을 제안하며, 주로 점, 경계 상자 또는 마스크와 같은 단서를 기반으로 개별 대상을 분할하는 것을 지원합니다.

SAM 및 SAM2 모델은 이미지 분할 분야에서 상당한 진전을 이루었지만, 입력 콘텐츠 내에서 주어진 개념의 모든 인스턴스를 자동으로 찾아 분할하는 능력은 아직 달성하지 못했습니다. 이러한 격차를 해소하기 위해,Meta는 최신 버전인 SAM 3를 출시했는데, 이는 큐어 기반 시각적 분할(PVS) 분야에서 이전 버전을 크게 뛰어넘을 뿐만 아니라 큐어 기반 개념 분할(PCS) 작업에서도 새로운 기준을 제시합니다.

SAM 3는 클릭 가능한 단서의 시각적 분할(왼쪽 이미지)에서 SAM 2를 능가하며, 새로운 단서 기반 개념 분할 기능(오른쪽 이미지)을 도입했습니다.

SAM 3 아키텍처는 검출기와 추적기를 포함하며, 둘 다 동일한 시각적 인코더를 공유합니다.이 검출기는 DETR 프레임워크를 기반으로 구축되었으며, 텍스트, 기하학적 정보 또는 예시 이미지를 조건부 입력으로 받을 수 있습니다. 개방형 어휘 개념 검출의 어려움을 해결하기 위해 연구진은 인식 및 위치 파악 프로세스를 분리하는 별도의 "존재 헤드"를 도입했습니다.

이 추적기는 SAM 2의 Transformer 인코더-디코더 아키텍처를 채택하여 비디오 분할 및 대화형 최적화를 지원합니다. 검출과 추적을 분리하는 이러한 설계는 두 작업 간의 충돌을 효과적으로 방지합니다. 검출기는 객체의 독립성을 유지해야 하는 반면, 추적기의 핵심 목표는 비디오에서 서로 다른 객체를 구별하고 그 정체를 유지하는 것입니다.

SAM 3는 SA-Co 벤치마크의 이미지 및 비디오 PCS 작업에서 이전 버전보다 두 배 높은 성능을 달성하며 최첨단(SOTA) 결과를 보여주었습니다.또한, H200 GPU에서 새로운 버전은 100개 이상의 감지 객체가 포함된 단일 이미지를 단 30밀리초 만에 처리할 수 있습니다.이 모델은 3D 재구성 분야로 확장될 수 있으며, 인테리어 미리보기, 창의적인 비디오 편집, 과학 연구와 같은 응용 분야를 지원하여 컴퓨터 비전의 미래 발전에 강력한 원동력을 제공할 것입니다.

"SAM3: 시각적 분할 모델"이 HyperAI 웹사이트(hyper.ai) 튜토리얼 섹션에서 제공됩니다. 지금 바로 창의적인 여정을 시작하세요!

튜토리얼 링크:

https://go.hyper.ai/AbyCq

논문 보기:

https://hyper.ai/papers/2511.16719

데모 실행

1. hyper.ai 홈페이지에 접속한 후 "SAM3: 시각적 분할 모델"을 선택하거나 "튜토리얼" 페이지로 이동하여 선택하세요. 그런 다음 "온라인으로 이 튜토리얼 실행"을 클릭하세요.

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA GeForce RTX 5090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "Pay As You Go" 또는 "Daily Plan/Weekly Plan/Monthly Plan"을 선택한 다음 "Continue job execution"을 클릭합니다.

HyperAI는 신규 사용자를 위한 등록 혜택을 제공합니다.단 $1로 5시간 분량의 RTX 5090 컴퓨팅 성능을 얻을 수 있습니다(원래 가격 $2.45).해당 리소스는 영구적으로 유효합니다.

4. 리소스 할당을 기다리세요. 첫 번째 복제에는 약 3분이 소요됩니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆의 이동 화살표를 클릭하여 데모 페이지로 이동하세요.

효과 시연

데모 페이지는 이미지 분할, 비디오 텍스트 입력, 비디오 점/상자 입력의 세 가지 기능을 제공하며 영어 입력만 지원합니다. 이 튜토리얼에서는 비디오 텍스트 입력 기능을 예시로 사용합니다.

테스트 영상을 업로드한 후, 식별 및 분할할 명사구를 "텍스트 프롬프트" 필드에 입력하고 "텍스트 프롬프트 적용" 및 "비디오 전체에 적용"을 클릭하여 프롬프트를 적용합니다. 마지막으로 "원활한 재생을 위해 MP4로 렌더링"을 클릭하여 식별된 대상이 강조 표시된 비디오 결과를 생성합니다.

최근 개봉한 "주토피아 2" 예고편의 한 장면을 이용해 제가 진행한 테스트 결과를 함께 살펴보겠습니다 👇

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:

https://go.hyper.ai/AbyCq

HyperAI

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

8달 전

"SAM3: 시각적 분할 모델"이 HyperAI 웹사이트(hyper.ai) 튜토리얼 섹션에서 제공됩니다. 지금 바로 창의적인 여정을 시작하세요!

튜토리얼 링크:

https://go.hyper.ai/AbyCq

논문 보기:

https://hyper.ai/papers/2511.16719

데모 실행

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

효과 시연

최근 개봉한 "주토피아 2" 예고편의 한 장면을 이용해 제가 진행한 테스트 결과를 함께 살펴보겠습니다 👇

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:

https://go.hyper.ai/AbyCq

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

8달 전

"SAM3: 시각적 분할 모델"이 HyperAI 웹사이트(hyper.ai) 튜토리얼 섹션에서 제공됩니다. 지금 바로 창의적인 여정을 시작하세요!

튜토리얼 링크:

https://go.hyper.ai/AbyCq

논문 보기:

https://hyper.ai/papers/2511.16719

데모 실행

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

효과 시연

최근 개봉한 "주토피아 2" 예고편의 한 장면을 이용해 제가 진행한 테스트 결과를 함께 살펴보겠습니다 👇

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:

https://go.hyper.ai/AbyCq

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

Command Palette

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

Command Palette

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

Command Palette

온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

온라인 튜토리얼 | 작은 크기, 강력한 코드 성능: Qwen3.6-27B, 플래그십 수준의 프로그래밍 기능 구현

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현