Command Palette
Search for a command to run...

要約
以下に、ご指定の英語テキストの日本語訳を提示します。科技ニュースや学術論文のスタイルに合わせ、正確かつ正式な表現を採用しています。本稿では、Segment Anything Model (SAM) 3を提案する。これは、コンセプトプロンプト(短い名詞句(例:「黄色いスクールバス」)、画像例、またはその両方の組み合わせと定義)に基づき、画像および動画内の物体を検出し、セグメンテーション(領域分割)を行い、追跡する統合モデルである。Promptable Concept Segmentation(PCS)は、このようなプロンプトを入力として受け取り、一致するすべての物体インスタンスに対して、セグメンテーションマスクと一意の識別子(ID)を出力する。PCSを推進するため、我々はスケーラブルなデータエンジンを構築し、画像および動画全体で「ハードネガティブ(hard negatives)」を含む400万のユニークなコンセプトラベルを持つ高品質なデータセットを作成した。本モデルは、単一のバックボーンを共有する画像レベルの検出器と、メモリベースの動画トラッカーで構成されている。認識(Recognition)と位置特定(Localization)は「プレゼンスヘッド(presence head)」によって分離されており、これにより検出精度が向上している。SAM 3は、画像および動画のPCSにおいて既存システムの2倍の精度を達成すると同時に、視覚的セグメンテーションタスクにおける従来のSAMの能力も向上させている。我々は、Promptable Concept Segmentationのための新しいベンチマークである「Segment Anything with Concepts (SA-Co)」と共に、SAM 3をオープンソースとして公開する。