Command Palette
Search for a command to run...

摘要
大规模视觉基础模型在多样化自然图像上进行预训练,标志着计算机视觉领域的一次范式转变。然而,前沿视觉基础模型在医学影像等专业领域中的性能迁移能力仍是一个未解之谜。本报告旨在探究DINOv3——一种最先进的自监督视觉Transformer(ViT),在密集预测任务中展现出强大能力——是否能够在无需领域特定预训练的情况下,直接作为统一而强大的编码器,用于多种医学视觉任务。为回答这一问题,我们在多种常见医学视觉任务上对DINOv3进行了基准测试,涵盖不同医学成像模态下的2D/3D分类与分割任务。通过调整模型规模和输入图像分辨率,系统性地分析了其可扩展性。研究结果表明,DINOv3展现出卓越的性能,并建立了一个极具竞争力的新基准。尤为显著的是,尽管仅在自然图像上进行训练,DINOv3在多项任务上甚至超越了专为医学设计的基础模型,如BiomedCLIP和CT-Net。然而,我们也识别出其明显局限性:在需要深度领域专精的场景下,如全切片病理图像(Whole-Slide Pathological Images, WSIs)、电子显微镜(Electron Microscopy, EM)和正电子发射断层扫描(Positron Emission Tomography, PET),其特征表示性能显著下降。此外,我们观察到DINOv3在医学领域并不严格遵循缩放定律——模型规模增大或特征分辨率提高,并不能可靠地带来性能提升,其缩放行为在不同任务间表现出显著差异。最终,本研究确立了DINOv3作为一项强有力的基线模型,其强大的视觉特征可作为多种复杂医学任务的稳健先验。这一成果为未来研究开辟了广阔前景,例如利用其特征增强三维重建中的多视角一致性。