6ヶ月前

マルチモーダル

マルチモーダル表現

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

&#xd6 zsoy Ege Pellegrini Chantal Czempiel Tobias Tristram Felix Yuan

概要

手術室（OR）は、医療従事者、器具、設備間の相互作用を正確に理解する必要がある複雑かつ高リスクな環境であり、手術支援、状況認識、患者安全の向上に不可欠である。現行のデータセットは規模、現実性に欠け、手術室の多モーダル性を十分に捉えておらず、ORのモデリングにおける進展を制限している。こうした課題に対応して、本研究では、現実的かつ大規模な多モーダル時空間的手術室データセットMM-ORを提案する。これは、多モーダルなシーングラフ生成を可能にする初めてのデータセットである。MM-ORはRGB-Dデータ、詳細視点画像、音声、音声トランスクリプト、ロボットログ、追跡データを含む包括的な手術室シーンを収録しており、パノプティックセグメンテーション、意味的シーングラフ、および下流タスク用のラベルによりアノテーションされている。さらに、シーングラフ生成を目的とした初めての多モーダル大規模視覚言語モデルMM2SGを提案し、広範な実験を通じて、多モーダル入力を効果的に活用できる能力を示した。MM-ORとMM2SGの共同利用により、包括的な手術室理解のための新たなベンチマークが確立され、複雑かつ高リスクな環境における多モーダルシーン解析の道が開かれる。コードおよびデータは、https://github.com/egeozsoy/MM-OR にて公開している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

&#xd6 zsoy Ege Pellegrini Chantal Czempiel Tobias Tristram Felix Yuan

概要

手術室（OR）は、医療従事者、器具、設備間の相互作用を正確に理解する必要がある複雑かつ高リスクな環境であり、手術支援、状況認識、患者安全の向上に不可欠である。現行のデータセットは規模、現実性に欠け、手術室の多モーダル性を十分に捉えておらず、ORのモデリングにおける進展を制限している。こうした課題に対応して、本研究では、現実的かつ大規模な多モーダル時空間的手術室データセットMM-ORを提案する。これは、多モーダルなシーングラフ生成を可能にする初めてのデータセットである。MM-ORはRGB-Dデータ、詳細視点画像、音声、音声トランスクリプト、ロボットログ、追跡データを含む包括的な手術室シーンを収録しており、パノプティックセグメンテーション、意味的シーングラフ、および下流タスク用のラベルによりアノテーションされている。さらに、シーングラフ生成を目的とした初めての多モーダル大規模視覚言語モデルMM2SGを提案し、広範な実験を通じて、多モーダル入力を効果的に活用できる能力を示した。MM-ORとMM2SGの共同利用により、包括的な手術室理解のための新たなベンチマークが確立され、複雑かつ高リスクな環境における多モーダルシーン解析の道が開かれる。コードおよびデータは、https://github.com/egeozsoy/MM-OR にて公開している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MM-OR：高強度外科環境の意味理解を目的とした大規模マルチモーダル手術室データセット | 記事 | HyperAI超神経