11日前

ORacle:知識ガイドド・ホリスティックなORドメインモデリングを目的とした大規模ビジョン・言語モデル

Ege Özsoy, Chantal Pellegrini, Matthias Keicher, Nassir Navab
ORacle:知識ガイドド・ホリスティックなORドメインモデリングを目的とした大規模ビジョン・言語モデル
要約

毎日、世界中で何千もの手術が行われており、それぞれは手術室(OR)という異なる環境において実施される。これらの手術室は、設備の構成だけでなく、人員、道具、機器の種類も多様である。このような固有の多様性は、手術室全体の包括的理解を達成する上で大きな課題をもたらす。なぜなら、モデルが初期の訓練データセットを超えて一般化する必要があるからである。このギャップを縮小するために、我々はORacleを提案する。ORacleは、包括的な手術室領域モデリングを目的とした高度な視覚言語モデルであり、多視点および時系列の機能を備え、推論時に外部知識を活用できる。これにより、これまでに見たことのない手術状況にも柔軟に適応可能となる。さらに、本研究では、訓練データセットを大幅に多様化する新たなデータ拡張フレームワークを導入し、ORacleが提供された知識を効果的に活用する能力を強化している。厳密な評価において、4D-ORデータセットを用いたシーングラフ生成および下流タスクにおいて、ORacleは既存モデルよりも少ないデータ量で最先端の性能を達成した。また、未観測の視点、動作、器具や設備の外観を正確に解釈できる点から、その高い適応性が示された。これらは、ORacleが手術室領域モデリングのスケーラビリティとコスト効率を大幅に向上させる可能性を示しており、外科データサイエンスの今後の発展に道を開くものである。本研究が採択された時点で、コードおよびデータを公開する予定である。

ORacle:知識ガイドド・ホリスティックなORドメインモデリングを目的とした大規模ビジョン・言語モデル | 最新論文 | HyperAI超神経