HyperAIHyperAI

Command Palette

Search for a command to run...

SAM 2:画像および動画におけるアノテーションの汎用化

概要

本稿では、画像および動画におけるプロンプト駆動型視覚セグメンテーションを実現する基盤モデルとして、Segment Anything Model 2(SAM 2)を紹介する。我々は、ユーザーのインタラクションを通じてモデルとデータを継続的に改善するデータエンジンを構築し、これまでで最大規模の動画セグメンテーションデータセットを収集した。本モデルは、リアルタイムの動画処理に適したストリーミングメモリを備えた単純なトランスフォーマー構造を採用している。本研究で収集したデータに基づいて学習させたSAM 2は、広範なタスクにおいて優れた性能を発揮する。動画セグメンテーションにおいては、従来手法と比較して3倍少ないインタラクションでより高い精度を達成した。画像セグメンテーションでは、Segment Anything Model(SAM)と比較して精度が向上し、処理速度は6倍速くなっている。本研究で得られたデータ、モデル、および知見が、動画セグメンテーションおよび関連する認識タスクにおける重要なマイルストーンとなると確信している。本研究では、モデルのバージョン、データセット、およびインタラクティブなデモを公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています