オンラインチュートリアル | NVIDIAオープンソースLocateAnythingは、画像や動画のターゲットポインティング、オープンボキャブラリーオブジェクト検出、ターゲット位置特定、OCRテキスト位置特定などの機能を実現する3Bモデルです。

ビジュアル言語モデル（VLM）がエージェント、マルチモーダルなインタラクション、そして現実世界のタスクへと進化を続けるにつれ、「画像を理解すること」はもはや最終目標ではなくなり、より重要なのは「対象物を正確に特定すること」となっています。これは、オープンボキャブラリーの物体検出、GUIエージェントインターフェースの操作、文書理解、そしてロボット工学や自動運転システムにおける環境認識など、あらゆる分野に当てはまります。これらの要因すべてが、視覚的な接地能力に対する要求をますます高めている。

しかし、現在の主流のビジュアル言語モデルは、位置特定タスクを処理する際に一般的に「座標トークン生成」方式を採用しており、これは2次元の境界ボックスを複数の1次元座標トークンに分割し、それらを1つずつ生成およびデコードするというものです。このアプローチは、境界ボックスの内部形状の一貫性を維持するのに苦労するだけでなく、...さらに、厳密な逐次生成メカニズムは推論速度を制限する。モデルが多数のターゲットを同時に処理する必要がある場合、位置特定効率と精度とのバランスを取ることはしばしば困難である。

この長年のボトルネックに対応するため、NVIDIAは最近、Eagle VLMシリーズの新たなメンバーであるLocateAnything-3Bをオープンソース化した。これは30億個のパラメータを持つ視覚言語ローカライズモデルであり、オープンボキャブラリーオブジェクト検出、ポインタ表現ローカライズ、OCRテキストローカライズ、GUI要素ローカライズ、画像や動画におけるターゲットポインティングなど、さまざまなタスクをサポートし、統一された視覚的ローカライズおよび検出フレームワークの構築を目指しています。

LocateAnything-3B の核となるイノベーションは、並列ボックスデコード (PBD) と呼ばれる新しいメカニズムから来ています。座標トークンを 1 つずつ生成する従来の方法とは異なり、PBDは、境界ボックスやキーポイントなどの幾何学的要素を、完全な構造として同時に並列に予測することができます。この設計は、境界ボックス内の幾何学的整合性を維持するだけでなく、デコード処理のスループットを大幅に向上させ、高精度な位置特定機能を維持しながら、モデルの推論速度を向上させることを可能にする。

NVIDIAは、アーキテクチャの革新にとどまらず、このモデルを基盤とした大規模なトレーニングシステムも構築しました。研究チームは拡張性の高いデータエンジンを開発し、LocateAnything-Dataデータセットを公開しました。このデータセットには、自然風景、ロボット工学、自動運転、GUI操作、文書理解、OCRなど、複数の分野を網羅した1億3800万を超えるトレーニングサンプルが含まれており、複雑なシナリオにおけるモデルの汎化能力を大幅に向上させています。

実験結果によると、LocateAnythingは複数の視覚位置特定ベンチマークにおいて、より高い位置特定精度とより速いデコード速度の両方を実現しており、統一された視覚位置特定モデルを従来の速度と精度のトレードオフの枠を超えて進化させています。急速に発展しているGUIエージェント、自動アノテーションシステム、そして次世代のマルチモーダルエージェントにとって、この効率的かつ高精度な空間認識能力は、インフラレベルの重要な機能となりつつあります。

現在、HyperAIの公式サイト（hyper.ai）のチュートリアルセクションでは、ノートブック形式で導入のハードルを下げる「LocateAnything-3B：高速かつ高品質なビジュアル言語ローカライゼーションモデル」が公開されています。

オンラインで実行:https://go.hyper.ai/4l9jB

その他のオンラインチュートリアル：

https://hyper.ai/notebooks

より詳しい情報については、弊社の公式ウェブサイトをご覧ください。

https://hyper.ai

デモの実行

1. hyper.ai のホームページにアクセスしたら、「チュートリアル」ページを選択するか、「その他のチュートリアルを表示」をクリックし、「LocateAnything-3B: 高速かつ高品質なビジュアル言語ローカライズモデル」を選択して、「このチュートリアルを実行」をクリックします。

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注：ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA RTX 5090」と「PyTorch」の画像を選択し、「ジョブの実行を続行」をクリックします。

4. リソースが割り当てられるのを待ちます。ステータスが「実行中」に変わったら、「ワークスペースを開く」をクリックしてJupyterワークスペースに入ります。

エフェクト表示

1. ページがリダイレクトされたら、左側のREADMEファイルをクリックし、上部の「実行」をクリックします。

2. 処理が完了したら、右側のAPIアドレスをクリックしてデモページに移動します。

HyperAI

オンラインチュートリアル | NVIDIAオープンソースLocateAnythingは、画像や動画のターゲットポインティング、オープンボキャブラリーオブジェクト検出、ターゲット位置特定、OCRテキスト位置特定などの機能を実現する3Bモデルです。

2ヶ月前

オンラインで実行:https://go.hyper.ai/4l9jB

その他のオンラインチュートリアル：

https://hyper.ai/notebooks

より詳しい情報については、弊社の公式ウェブサイトをご覧ください。

https://hyper.ai

デモの実行

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注：ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA RTX 5090」と「PyTorch」の画像を選択し、「ジョブの実行を続行」をクリックします。

エフェクト表示

1. ページがリダイレクトされたら、左側のREADMEファイルをクリックし、上部の「実行」をクリックします。

2. 処理が完了したら、右側のAPIアドレスをクリックしてデモページに移動します。

オンラインチュートリアル | NVIDIAオープンソースLocateAnythingは、画像や動画のターゲットポインティング、オープンボキャブラリーオブジェクト検出、ターゲット位置特定、OCRテキスト位置特定などの機能を実現する3Bモデルです。

2ヶ月前

オンラインで実行:https://go.hyper.ai/4l9jB

その他のオンラインチュートリアル：

https://hyper.ai/notebooks

より詳しい情報については、弊社の公式ウェブサイトをご覧ください。

https://hyper.ai

デモの実行

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注：ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA RTX 5090」と「PyTorch」の画像を選択し、「ジョブの実行を続行」をクリックします。

エフェクト表示

1. ページがリダイレクトされたら、左側のREADMEファイルをクリックし、上部の「実行」をクリックします。

2. 処理が完了したら、右側のAPIアドレスをクリックしてデモページに移動します。

デモの実行

エフェクト表示

デモの実行

エフェクト表示

関連ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

デモの実行

エフェクト表示

関連ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

Command Palette

デモの実行

エフェクト表示

Command Palette

デモの実行

エフェクト表示

関連 ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

Command Palette

デモの実行

エフェクト表示

関連 ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連 ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連 ニュース

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。