Command Palette

Search for a command to run...

20日前

次のポイント予測によるAnything検出

Qing Jiang Junan Huo Xingyu Chen Yuda Xiong Zhaoyang Zeng Yihao Chen Tianhe Ren Junzhi Yu Lei Zhang

次のポイント予測によるAnything検出

要約

オブジェクト検出は長年にわたり、YOLO、DETR、Grounding DINO などの従来の座標回帰ベースのモデルによって支配されてきた。近年、多モーダル大規模言語モデル(MLLM)を活用してこのタスクに取り組む試みがなされているが、低再現率、重複予測、座標の不整合といった課題に直面している。本研究では、こうしたギャップを埋め、最先端のオブジェクト認識性能を達成する30億パラメータ規模のMLLM「Rex-Omni」を提案する。COCOやLVISといったベンチマークにおいて、Rex-Omniはゼロショット設定下で従来の回帰ベースモデル(例:DINO、Grounding DINO)と同等またはそれ以上の性能を達成している。この成果は、以下の3つの鍵となる設計によって実現されている。1)タスク定式化:0から999までの量子化された座標を特別なトークンで表現することで、モデルの学習負荷を低減し、座標予測におけるトークン効率を向上させた。2)データエンジン:高品質なグランドティング、参照、指差しデータを生成する複数のデータエンジンを構築し、訓練に向けた意味的に豊かな監督信号を提供した。3)訓練パイプライン:2段階の訓練プロセスを採用。まず2200万件のデータ上で教師あり微調整(SFT)を行い、その後、GRPOベースの強化学習(RL)による後段訓練を実施。このRL後段訓練は、幾何学的意識を持つ報酬関数を活用し、離散的から連続的への座標予測のギャップを効果的に埋め、ボックス精度を向上させ、初期SFT段階の教師ガイドド性に起因する重複予測などの望ましくない振る舞いを軽減する。従来の検出にとどまらず、Rex-Omniの内在する言語理解能力により、オブジェクト参照、指差し、視覚的プロンプト、GUIグランドティング、空間的参照、OCR、キーポイント指定といった多様な機能を実現。これらはすべて専用のベンチマーク上で体系的に評価されている。我々は、Rex-Omniがより多様で言語に配慮した視覚認識システムの実現に道を開くものと考えている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています