概要

以下に、ご指定の英語テキストの日本語訳を提示します。科技ニュースや学術論文のスタイルに合わせ、正確かつ正式な表現を採用しています。本稿では、Segment Anything Model (SAM) 3を提案する。これは、コンセプトプロンプト（短い名詞句（例：「黄色いスクールバス」）、画像例、またはその両方の組み合わせと定義）に基づき、画像および動画内の物体を検出し、セグメンテーション（領域分割）を行い、追跡する統合モデルである。Promptable Concept Segmentation（PCS）は、このようなプロンプトを入力として受け取り、一致するすべての物体インスタンスに対して、セグメンテーションマスクと一意の識別子（ID）を出力する。PCSを推進するため、我々はスケーラブルなデータエンジンを構築し、画像および動画全体で「ハードネガティブ（hard negatives）」を含む400万のユニークなコンセプトラベルを持つ高品質なデータセットを作成した。本モデルは、単一のバックボーンを共有する画像レベルの検出器と、メモリベースの動画トラッカーで構成されている。認識（Recognition）と位置特定（Localization）は「プレゼンスヘッド（presence head）」によって分離されており、これにより検出精度が向上している。SAM 3は、画像および動画のPCSにおいて既存システムの2倍の精度を達成すると同時に、視覚的セグメンテーションタスクにおける従来のSAMの能力も向上させている。我々は、Promptable Concept Segmentationのための新しいベンチマークである「Segment Anything with Concepts (SA-Co)」と共に、SAM 3をオープンソースとして公開する。

ソースPDF コードを表示