11日前

内視鏡動画解析のための自己教師学習

Roy Hirsch, Mathilde Caron, Regev Cohen, Amir Livne, Ron Shapiro, Tomer Golany, Roman Goldenberg, Daniel Freedman, Ehud Rivlin
内視鏡動画解析のための自己教師学習
要約

自己教師あり学習(Self-supervised Learning, SSL)は、大量のラベルなしデータからの学習を可能にすることで、コンピュータビジョン分野において重要なブレイクスルーをもたらした。このような特性から、データのラベリングに高度な専門知識を要する医療分野において、SSLは中心的な役割を果たす可能性がある。しかし、SSLが広く検討されていない医療領域も依然として多く存在する。その一例が内視鏡検査であり、感染症や慢性炎症性疾患、がんの検出および治療に広く用いられる最小侵襲的手術法である。本研究では、マスクドシアメスネットワーク(Masked Siamese Networks, MSNs)という代表的なSSLフレームワークを、大腸内視鏡や腹腔鏡などの内視鏡動画解析に適用する可能性を検討した。SSLの潜在能力を最大限に引き出すため、MSNsの学習に適した大規模なラベルなし内視鏡動画データセットを構築した。これらの強力な画像表現は、限定的なラベル付きデータセットを用いた2次学習の基盤となり、腹腔鏡手術段階認識や大腸内視鏡ポリープ分類といった内視鏡ベンチマークにおいて、最先端の性能を達成した。さらに、性能を維持したままラベル付きデータ量を50%削減することに成功した。以上のことから、本研究は、SSLが内視鏡分野におけるラベル付きデータの必要量を劇的に削減可能であることを実証した。