OBIA: 900 人以上の患者、193 枚以上の画像、中国科学院ゲノミクス研究所が我が国初の生物学的画像共有データベースを公開

1 年前

情報

Yuanyuan Feng

特色图像

医師の診察と写真撮影は日常的です。 CT、MRI、X線などの画像データは非侵襲的な手段で人体に送信され、内臓や組織の状態を明確に可視化し、臨床診断や病気の治療に信頼できる基礎を提供します。

医療画像技術の広範な発展により、画像データは国内の医療データの 80% 以上を占めています。放射線科医の不足、各レベルの病院間の診断結果の違い、医療資源の偏在などの問題点はますます顕著になっています。

AI と医用画像の組み合わせには非常に大きな想像力の余地があり、感覚認知とディープラーニング技術は医用画像の診断結果を特定する上で比類のない利点をもたらし、医師の誤診率の削減と業務効率の向上に役立ちます。

しかし、高品質の AI アルゴリズムには、十分な大きさの代表的な画像データ セットが必要です。これらの医療画像には大量の機密個人情報が含まれることが多く、あらゆるレベルの病院間には「データアイランド」が存在し、共有システムが不完全であるため、医療画像 AI の利用可能なリソースが限られています。

著者 | 鉄の塔

編集者 | 三陽、雪彩

世界の多くの国がさまざまな医療画像データ共有データベースを構築していますが、我が国はこの分野においては依然として国際社会に遅れをとっています。中国科学院ゲノミクス研究所 (中国国立バイオインフォマティクスセンター) は、Open Biomedical Imaging Archive (OBIA) を設立しました。

中国初の生物医学画像データおよび関連臨床データのオープンリポジトリとして、OBIA は無料で、世界中の医師および関連学者に公開されています。関連する結果のプレプリント版は、2023 年 9 月 25 日に「bioRxiv」に掲載されました。

論文リンク:https://www.nature.com/articles/s42256-023-00704-7

「HyperAI Super Neural」公開アカウントをフォローし、バックグラウンドで「OBIA」に返信すると、論文の全文 PDF を入手できます。

OBIA データベースの構築と実装のプロセス

中国国家生物情報センターの中核データベースリソースとして、OBIA は世界中から画像の投稿を受け入れ、すべての公開データへの無料かつオープンなアクセスを提供します。画像データの匿名化、管理、品質管理をサポートします。既存の画像データや臨床データの再利用を促進する、閲覧・検索・ダウンロードなどのデータサービスを提供します。

OBIA は 5 種類のデータ オブジェクト (コレクション、個人、研究、シリーズ、画像) を使用してデータを整理します。複数のモダリティ、複数の臓器、複数の疾患の生物医学画像の提出を受け入れます。

個人のプライバシーを保護するため、OBIA は、統合された匿名化および品質管理プロセスを開発しました。また、データの送信、閲覧と取得、画像の取得のための直感的で使いやすい Web インターフェイスも提供します。全体として、OBIA は国内の生物医学画像データ管理のための信頼できるプラットフォームを提供し、世界的な生物医学研究のサポートに役立ちます。

図 1: OBIA アクセス インターフェイス

訪問先住所:https://ngdc.cncb.ac.cn/obia

実装の詳細——画像検索

ディープニューラルネットワークは有利な特徴を抽出するのが得意で、これを使用すると、人体のさまざまな臓器のマルチモーダル医用画像を取得し、サンプルが少ない状況での分類パフォーマンスを向上させることができます。従来の方法と比較して、スケール不変特徴変換 (SIFT)、ローカル バイナリ パターン (LBP)、指向性勾配ヒストグラム (HOG) などの深層学習ベースの方法は、より優れたパフォーマンスを示すことができます。

OBIA では、研究者らはがん画像データベース TCIA のマルチモーダルがんデータに基づく特徴抽出器として EfficientNet を使用し、トリプレット ネットワークとアテンション モジュールを使用してモデルをトレーニングし、画像を離散ハッシュ値に圧縮しています (図 2)。その後、推論パフォーマンスを高速化し、推論レイテンシを短縮するために、トレーニングされたモデルが TensorRT 形式に変換され、Faiss がハッシュ コードの保存に使用されます。

研究者はハミング距離を使用して画像の類似性を計算し、最も類似した画像を返します。結果は、このモデルの平均精度 (MAP) 値が、TCIA データセット上の既存の高度な画像検索モデルのパフォーマンスを超えていることを示しています。

図 2: アテンションおよびレイヤー融合モジュールに基づくディープ トリプル ハッシュ

このモデルは、EfficientNet-B6 をメイン ネットワークとして使用し、Block5 の CBAM アテンション モジュールを使用して機能マップを取得します。レイヤ融合は完全に接続されたレイヤで採用され、焦点損失とトリプレット損失を使用してハッシュ コードとクラス エンベディングを生成します。

注記:

● CBAM: 畳み込みブロック アテンション モジュール、畳み込みブロック アテンション モジュール

● EfficientNet: 2019 年に Google が提案した新しい CNN ネットワークで、パラメータ効率と速度が非常に高く、画像分類の分野で優れたパフォーマンスを発揮します。

● Faiss: Facebook 人工知能研究所が開発した高性能類似検索ライブラリで、ディープラーニングによく使われています。

データベースの内容と使用法 - データ モデル

図 3 に示すように、OBIA の画像データは 5 つのオブジェクト タイプに分類されます。コレクション、個人、研究、シリーズ、画像はそれぞれ以下を参照します。

• コレクション:「OBIA」という接頭辞を付けて、提出物全体の全体的な説明を提供します。

• 個人:登録番号には「I」という接頭辞が付けられ、医療サービスを受ける、または受けるように登録されているヒトまたはヒト以外の生物の特性を定義します。

• 勉強:接頭辞「S」が付いたアクセッション番号を使用し、個人に対して実施された放射線検査に関する説明情報を含めます。

• シリーズ:研究は、さまざまなロジック (体の部位や方向など) に基づいて 1 つ以上のシリーズに分割できます。

• 画像:単一の DICOM ファイル (医療におけるデジタル イメージングと通信、医療デジタル イメージングと通信) のピクセル データを記述します。画像は、単一のスタディ内の単一のシリーズに関連付けられます。

注: DICOM は、医療画像の分野で広く使用されている国際標準であり、異なるメーカーが製造した医療機器やソフトウェアに互換性を持たせるため、医療画像データの保存、送信、共有、印刷に関する一連の仕様とプロトコルを定義しています。互いに互換性があります。

図 3: OBIA データ モデル

これらの標準化されたデータ オブジェクトに基づいて、OBIA は、DICOM 標準で定義された画像構造を実際の研究プロジェクトと結び付けます。データの共有と交換を実現します。

さらに、OBIA の各コレクションは BioProject にリンクされており、研究プロジェクトに関する説明的なメタデータを提供します。

可能であれば、OBIA の個人を個人アクセッション番号を通じて GSA-Human にリンクすることができます。これにより、研究者がマルチオミクス解析を実行できるように画像データとゲノム データがリンクされます。

BioProject のリンク アドレス:

https://ngdc.cncb.ac.cn/bioproject/

GSA-Human リンク アドレス:

https://ngdc.cncb.ac.cn/gsa-human/

データベースの内容と用途——匿名化と品質管理

生物医学画像には保護された健康情報 (PHI) が含まれる場合があり、個人のプライバシーを侵害するリスクを最小限に抑えるために適切に処理する必要があります。貴重な科学情報をできるだけ残したままPHIを削除するために、OBIA は、DICOM 準拠の匿名化および品質管理メカニズムを提供します (図 4)。

図 4: OBIA の匿名化と品質管理のメカニズム

OBIA は、匿名化作業の多くに北米放射線学会 (RSNA) の MIRC 臨床試験プロセッサ (CTP) を利用しています。

• 標準タグの場合、研究者は CTP を構築し、PHI を含む、または含む可能性のある特定の標準タグを削除または隠蔽する共通ベースの匿名化スクリプトを開発しました。

• プライベートタグの場合は、PyDicom を使用して処理され、純粋な数値プロパティが保持されます。

匿名化プロセスが完了すると、OBIA は品質管理手順の実行を開始します。

• 問題のある画像:孤立した画像の場合、送信者は画像を修復するか完全に破棄するために関連情報を提供できます(このタイプの画像とは、タイトルが空白または患者 ID が欠落している画像、損傷している画像、他の患者画像と混合している画像などを指します)。

• 重複した画像:1 つだけ保持してください。

次に、OBIA は TagSniffer を使用してすべての画像のレポートを生成し、レポート内のすべての DICOM 要素が慎重にレビューされ、PHI が含まれていないこと、および特定の値 (患者 ID、研究日など) が予想どおりに変更されていることを確認します。

また、OBIA スタッフは画像ピクセルの目視検査も行います。ピクセル値に PHI が含まれていないこと、および画像が表示され破損していないことを確認するため。

データベースの内容と用途——統計

2023年9月の時点で、OBIAは合計937の「個人」、4,136の「研究」、24,701の「シリーズ」、および1,938,309の「画像」を収集しており、9つのモダリティと30の解剖学的部位をカバーしています。

代表的な画像診断法としては、X線コンピュータ断層撮影(CT)、磁気共鳴(MR)、デジタルラジオグラフィー(DX)などがあり、解剖学的部位としては、腹部、胸部、胸部、頭部、肝臓、骨盤などが挙げられます。

OBIA に提出された情報の最初のバッチは 301 病院からのものでした。3大婦人科腫瘍(子宮内膜がん、卵巣がん、子宮頸がん)の画像データを収録。

表 1 に示すように、これらのデータは、「個人」の量、「研究」の量、「シリーズ」の量、「画像」の量の 4 つの「コレクション」に分類されます。また、OBIA は関連する臨床メタデータも収集します。人口統計データ、病歴、家族歴、診断、病状の種類、治療方法など。

表 1: OBIA に提出された情報の最初のバッチ

データサイロを打破する国内外の医療データ共有プラットフォームを構築

データは流通して初めて価値を生みます。生体画像データの共有レベルを向上させるためには、世界中の多くの国が、オープンな医療データベースの構築に取り組んでいます。

• 国立衛生研究所 (NIH):新型コロナウイルス感染症関連の医療画像とデータのオープンアクセスプラットフォームである MIDRC、神経学的および脳の画像を収集する IDA、NITRC-IR、FITBIR、OpenNeuro、NDA、がん画像データベース TCIA および IDC など、いくつかの知識ベースを後援しました ( TCIA がローカルに提供される場合、がん研究データ共有クラウド環境で IDC によって提供される画像)。

• 英国がん研究:OPTIMAM マンモグラフィー画像データベース (OMI-DB) を後援しました。

• ポルトガル、ポルト大学:注釈付きの乳がん画像と臨床詳細を提供する乳がんデジタル リポジトリ (BCDR) を後援しました。

上記リポジトリには、NITRC-IR、IDCに加えて、他のほとんどはデータの匿名化と品質管理をサポートしています。さらに、一部の大学や機関は、OASIS、EchoNet-Dynamic、CAMUS プロジェクトなどのオープンソース データセットも提供しています。

図 5: MIDRC データベースにある 79 歳の患者の胸部 CT 

国内では、華中科技大学は、新型コロナウイルス感染症向けに統合された CT 画像と CF のオープンソースを提供しています。これには肺炎患者(新型コロナウイルス感染症を含む)のCT画像や臨床的特徴が含まれているが、対象が単一疾患に限定されており、利用可能な研究リソースも限られているため、中国ではデータを具体的に保存して受け入れるデータベースが依然として不足している。さまざまな病気や治療法の申請。

中国科学院ゲノムによって設立された OBIA は、国内の生物医学画像データのオープン共有におけるギャップを埋めました。これにより、さまざまな機関の研究者が臨床関連の画像データを共有しやすくなり、中国の生物医学画像データベースの分野におけるギャップを効果的に埋めることができます。

研究者らは論文の中で、今後もOBIAのインフラストラクチャのアップグレードを継続し、セキュリティ保護措置を強化すると同時に、より多くの種類の生物医学画像データを収集し、データソースを拡大する予定であると述べた。私たちは、「有効な画像メタデータを可能な限り保持し、科学研究者に高品質な画像データを提供する」という目標に向かって継続的に前進するために、さまざまな対策を講じています。

- 以上 -