Command Palette
Search for a command to run...

要約
大規模な視覚基盤モデルが、多様な自然画像上で事前学習されることにより、コンピュータビジョン分野に画期的な変化をもたらした。しかし、最先端の視覚基盤モデルの性能が、医療画像など特定の分野にどのように転移するかについては、依然として未解決の問題である。本報告では、密な予測タスクにおいて優れた能力を示す、最先端の自己教師付き視覚変換器(ViT)であるDINOv3が、特定分野の事前学習を経ずに、医療視覚タスクの強力かつ統一的なエンコーダとして直接利用可能かどうかを検証する。これを達成するために、DINOv3の性能を、さまざまな医療画像モダリティにおける2次元/3次元分類およびセグメンテーションという一般的な医療視覚タスクにおいてベンチマーク化した。また、モデルサイズや入力画像の解像度を変化させることで、そのスケーラビリティを体系的に分析した。その結果、DINOv3は優れた性能を示し、強力な新しいベースラインを確立したことが明らかになった。特に、自然画像のみで学習されたにもかかわらず、BiomedCLIPやCT-Netといった医療専用の基盤モデルよりも、いくつかのタスクで優れた性能を発揮している点が顕著である。一方で、我々は明確な限界も指摘した。深く分野特化が必要な状況、例えば全スライド病理画像(WSI)、電子顕微鏡(EM)、陽電子放射断層撮影(PET)においては、モデルの特徴量の品質が低下することが確認された。さらに、DINOv3は医療分野において一貫したスケーリング則に従わないことが観察された。モデルが大きくなるか、特徴量の解像度が細かくなるほど、性能が確実に向上するとは限らず、タスクによってスケーリングの挙動が多様であることが示された。結論として、本研究はDINOv3が、複数の複雑な医療タスクに強固な事前知識として機能する強力なベースラインであることを確立した。これにより、今後の有望な研究方向性が開かれた。たとえば、3次元再構成における多視点一貫性を強制する目的で、DINOv3の特徴量を活用する方法が挙げられる。