8ヶ月前

コンピュータビジョン

ビデオ理解

セマンティックセグメンテーション

コンピュータビジョン

Nikhila Ravi Valentin Gabeur Yuan-Ting Hu Ronghang Hu Chaitanya Ryali Tengyu Ma Haitham Khedr Roman Rädle Chloe Rolland Laura Gustafson

概要

本稿では、画像および動画におけるプロンプト駆動型視覚セグメンテーションを実現する基盤モデルとして、Segment Anything Model 2（SAM 2）を紹介する。我々は、ユーザーのインタラクションを通じてモデルとデータを継続的に改善するデータエンジンを構築し、これまでで最大規模の動画セグメンテーションデータセットを収集した。本モデルは、リアルタイムの動画処理に適したストリーミングメモリを備えた単純なトランスフォーマー構造を採用している。本研究で収集したデータに基づいて学習させたSAM 2は、広範なタスクにおいて優れた性能を発揮する。動画セグメンテーションにおいては、従来手法と比較して3倍少ないインタラクションでより高い精度を達成した。画像セグメンテーションでは、Segment Anything Model（SAM）と比較して精度が向上し、処理速度は6倍速くなっている。本研究で得られたデータ、モデル、および知見が、動画セグメンテーションおよび関連する認識タスクにおける重要なマイルストーンとなると確信している。本研究では、モデルのバージョン、データセット、およびインタラクティブなデモを公開する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コンピュータビジョン

ビデオ理解

セマンティックセグメンテーション

コンピュータビジョン

Nikhila Ravi Valentin Gabeur Yuan-Ting Hu Ronghang Hu Chaitanya Ryali Tengyu Ma Haitham Khedr Roman Rädle Chloe Rolland Laura Gustafson

概要

本稿では、画像および動画におけるプロンプト駆動型視覚セグメンテーションを実現する基盤モデルとして、Segment Anything Model 2（SAM 2）を紹介する。我々は、ユーザーのインタラクションを通じてモデルとデータを継続的に改善するデータエンジンを構築し、これまでで最大規模の動画セグメンテーションデータセットを収集した。本モデルは、リアルタイムの動画処理に適したストリーミングメモリを備えた単純なトランスフォーマー構造を採用している。本研究で収集したデータに基づいて学習させたSAM 2は、広範なタスクにおいて優れた性能を発揮する。動画セグメンテーションにおいては、従来手法と比較して3倍少ないインタラクションでより高い精度を達成した。画像セグメンテーションでは、Segment Anything Model（SAM）と比較して精度が向上し、処理速度は6倍速くなっている。本研究で得られたデータ、モデル、および知見が、動画セグメンテーションおよび関連する認識タスクにおける重要なマイルストーンとなると確信している。本研究では、モデルのバージョン、データセット、およびインタラクティブなデモを公開する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています