7日前
MM-OR:高強度外科環境の意味理解を目的とした大規模マルチモーダル手術室データセット
Ö, zsoy, Ege, Pellegrini, Chantal, Czempiel, Tobias, Tristram, Felix, Yuan, Kun, Bani-Harouni, David, Eck, Ulrich, Busam, Benjamin, Keicher, Matthias, Navab, Nassir

要約
手術室(OR)は、医療従事者、器具、設備間の相互作用を正確に理解する必要がある複雑かつ高リスクな環境であり、手術支援、状況認識、患者安全の向上に不可欠である。現行のデータセットは規模、現実性に欠け、手術室の多モーダル性を十分に捉えておらず、ORのモデリングにおける進展を制限している。こうした課題に対応して、本研究では、現実的かつ大規模な多モーダル時空間的手術室データセットMM-ORを提案する。これは、多モーダルなシーングラフ生成を可能にする初めてのデータセットである。MM-ORはRGB-Dデータ、詳細視点画像、音声、音声トランスクリプト、ロボットログ、追跡データを含む包括的な手術室シーンを収録しており、パノプティックセグメンテーション、意味的シーングラフ、および下流タスク用のラベルによりアノテーションされている。さらに、シーングラフ生成を目的とした初めての多モーダル大規模視覚言語モデルMM2SGを提案し、広範な実験を通じて、多モーダル入力を効果的に活用できる能力を示した。MM-ORとMM2SGの共同利用により、包括的な手術室理解のための新たなベンチマークが確立され、複雑かつ高リスクな環境における多モーダルシーン解析の道が開かれる。コードおよびデータは、https://github.com/egeozsoy/MM-OR にて公開している。