banner

ニュース

Oct 05, 2023

医療機関全体の臨床データを活用して予測リスク モデルを継続的に学習する

Scientific Reports volume 12、記事番号: 8380 (2022) この記事を引用

2018年のアクセス数

5 引用

11 オルトメトリック

メトリクスの詳細

新しい施設での患者ケアのエピソード (施設固有のトレーニング) から学習する機械学習ベースの臨床予測モデルの固有の柔軟性は、外部の患者コホートに適用するとパフォーマンスの低下を伴います。 施設を越えた臨床ビッグデータの可能性を最大限に活用するには、機械学習システムが施設の境界を越えて知識を伝達し、以前に学習したパターンを忘れることなく患者ケアの新しいエピソードから学習する機能を獲得する必要があります。 この研究では、WUPERR (Weight Uncertainty Propagation and Episodic Representation Replay) という名前のプライバシー保護学習アルゴリズムを開発し、4 つの異なる医療システムにわたる 104,000 人以上の患者からのデータを使用して、敗血症の早期予測のコンテキストでアルゴリズムを検証しました。 私たちは、提案された継続学習アルゴリズムは、新しい患者コホートでトレーニングされた後は、以前のコホートで競合する手法よりも高い予測パフォーマンスを維持できるという仮説を検証しました。 敗血症予測タスクでは、4 つの病院システム (HA、HB、HC、HD 病院) にわたる深層学習モデルの増分トレーニング後、WUPERR は、ベースライン転移学習アプローチと比較して、最初の 3 つの病院にわたって最高の陽性的中率を維持しました。 (HA: 39.27% 対 31.27%、HB: 25.34% 対 22.34%、HC: 30.33% 対 28.33%)。 提案されたアプローチには、プライバシーを保護しながら施設間の臨床ビッグデータから学習できる、より一般化可能なモデルを構築できる可能性があります。

過去 10 年間における人工知能の目覚ましい復活と、産業オートメーション、顧客満足度および収益の最適化に対する人工知能の影響により、関連技術のヘルスケアへの応用に対する関心が高まっています 1、2、3。 特に、ディープラーニング技術は、スクリーニングとトリアージ、診断、予後、意思決定支援、治療の推奨など、臨床医学においてますます注目を集めています4、5、6、7、8、9、10、11、12、13。 広く臨床で採用されるためには、深層学習ベースの臨床モデルは一般化可能で移植可能であり、モデルのトレーニングと評価にデータが使用される患者のプライバシーを確​​保する必要があります 14,15。 実際には、単一の医療システムからのデータでトレーニングされたモデルは、地域の人口動態、検査機器と分析、電子医療記録 (EHR)、データ測定の頻度、および臨床および管理業務の違いによる一般化性の欠如に悩まされることがよくあります。さまざまな臨床診断のコーディングと定義16. 臨床ビッグデータは、新しいデータ/経験から学習する深層学習モデルの固有の柔軟性と組み合わせることで、理論的にはこれらの異質性の一部に対処できる可能性があると主張されてきました。 しかし、医療データは依然としてサイロ化されており、データへのアクセス性と患者のプライバシーは、医療分野で高度な分析の力を最大限に活用する上で大きな課題となっています15、17。 そのため、現在、モデル開発に利用される典型的な臨床データは、ディープラーニングの産業応用を促進するデータよりも数桁小さいことがよくあります18。

広く使用されている機械学習ベースの敗血症予測リスクスコアの最近の独立した外部検証では、データ分布の変化と人口の症例混合の変化が存在する場合のモデルの一般化可能性の問題が浮き彫りになりました19,20。 深層学習システムの外部妥当性を向上させる潜在的な解決策は、新しい医療環境ごとにそのようなモデルを微調整することです (別名、転移学習) 21,22。 しかし、このアプローチでは、同じアルゴリズムの多くのバージョンが異なる医療現場で動作する可能性があり、変更管理に関する規制上の懸念や、一般化可能な知識の生成に関する科学的課題が生じます23。 したがって、プライバシーを保護しながら、患者に対する潜在的なリスクを管理しながら許容可能なパフォーマンスを維持できる、明確に定義された変更管理計画 24 を使用して、多様な患者コホートにわたる患者データを活用できる学習アルゴリズムとモデルを設計することが望ましいです。

連合学習および/または分散学習は、さまざまなソースに分散されたデータからモデルを学習する方法です25。 組織の境界と患者データに対する自主性を尊重しながら、そのようなデータを学習に活用するプライバシー保護方法が提案されています 26,27。 このようなモデルは、データが複数のサイトで同時に利用できることを前提としています 26,28 が、実際には、深層学習モデルは、多くの場合、時間の経過とともに逐次的に開発され、展開されます (たとえば、企業の顧客ベースが拡大するにつれて)。単一の医療機関 (病院 A) からのデータに基づいてトレーニングおよび検証されたデータは、2 番目の医療機関 (病院 B) および後続の施設 (病院 C など) に広められ、実装されます。 (1) すべてのモデル係数を固定に維持する、および (2) モデル係数がすべての地域の患者集団に合わせて微調整される部位固有のモデル展開の 2 つの極端な方法の代替として、単一のモデルを使用するシナリオを想像できます。新しい患者コホートから学び続け、一般化可能性を維持します。 このシナリオは、深層学習文献の継続学習 (別名生涯学習) フレームワークと密接に関連しており、モデルは一連のタスク (病院 A、B、C などでの死亡率の予測など) を順番に学習するようにトレーニングされます。前のタスクで許容可能なパフォーマンスを維持しながら(別名、「壊滅的な忘却」を克服する)29、30、31。

臨床現場では堅牢な継続学習アルゴリズムが必要であるにもかかわらず、そのような手法を臨床予測モデリングに応用する例は依然として少ない32。 ここでは、重症患者の敗血症の予測に関わる臨床的に重要な問題について考えます。 私たちは、4 つの敗血症コホートにわたるデータを使用して、患者データのプライバシーを維持しながら、すべてのコホートにわたって臨床的に許容可能なパフォーマンスを維持する予測モデルを順次トレーニングするための継続的な学習フレームワーク (図 1 を参照) を開発および検証しました。 生涯学習文献の最新の開発からインスピレーションを得て、我々は、新規患者コホートに関する予測モデルを継続的に更新するために、関節弾性重み統合 (EWC)33 およびエピソード表現再生 (ERR)34、35、36、37 フレームワークを提案します。 図 1 は、提案されている重み不確実性およびエピソード表現リプレイ (WUPERR) フレームワークの基本的な構成要素を示しています。 WUPERR は、次の 2 つのメカニズムを通じて継続的な学習を実現します。(1) 以前のタスクに不可欠であり、新しいタスクの学習中に変更されないネットワークの重みを追跡します。 (2) 新しいタスクの取得中に、前のタスクからのトレーニング データ表現をインターリーブします。 プライバシーを達成するために、WUPERR は、生の患者レベルの特徴を、ニューラル ネットワークを介して学習した隠された表現 (ネットワークの最初の層でのニューロンの活性化など) に置き換えます。これにより、保護された医療情報を施設の境界外に移動する必要がなくなります。

この研究の目的は、提案された継続学習アプローチがすべての患者コホートにわたって一般化可能性を向上させるかどうかを調べることでした。 私たちは、EWC および ERR 手法を組み込むと、この文脈で以前に検討された転移学習アプローチよりも一般化可能なモデルが得られるのではないかと仮説を立てました21。 さまざまなネットワーク パラメーターに対する継続学習の効果をさらに調査するために、新しいタスクの学習による重み適応の層ごとの分析を実施しました。 私たちは、米国内の地理的に異なる 4 つの集団(合計 104,322 人の患者)における敗血症の早期予測のための深層学習モデルの逐次トレーニングのコンテキストで WUPERR アルゴリズムをテストしました。 私たちが提案する継続的学習アプローチでは、組織の境界を越えてデータを活用し、プライバシーを保護した方法で一般化可能な予測リスク スコアを順次トレーニングすることができます。

WUPERR アルゴリズムの概略図。 トレーニングはランダムに初期化された重みのセットから始まり、最初のタスク (病院 A データの予測など) でトレーニングされます。 後続のすべての学習タスクでは、入力層の重み (\(W_1^A\)) は固定されたままになります。 次に、最適なネットワーク パラメーター、タスク A でのパラメーターの不確実性、病院 A のトレーニング コホートからの表現セット (\(\{h_1^A\}\)) が病院 B に転送されます。 モデルのより深い層は、病院 A と病院 B のデータの表現を再生することで 2 番目のタスク (病院 B データの予測など) を実行するように微調整されます。 同様に、最適なパラメーターとその不確実性レベルは、病院 A および病院 B の表現とともに病院 C に転送され、3 番目のタスクの実行時にモデルを微調整します。 保護された医療情報 (PHI+) は、特定の病院の組織的境界を決して離れることがないことに注意してください。 最後に、特定のタスクでの (テスト データに対する) 評価時に、モデルはすべての病院コホートに対して評価されます。

私たちは、4 つの医療システムにわたる入院患者の敗血症発症の早期予測のために提案された学習アルゴリズムのパフォーマンスを評価しました。 いくつかのベースラインモデルに対する WUPERR の比較研究を補足資料の図に示します。 ただし、S4 ~ S6 については、簡潔にするために、次のセクションでは転移学習に対する WUPERR のパフォーマンスのみを報告します。

曲線下面積 (AUC) メトリクスを使用して測定された、敗血症の発症の早期予測のための継続学習モデルの評価。 (a) 転移学習を使用してトレーニングされたモデルの AUC (中央値 [IQR]) を示します。 モデルのパフォーマンスは、X 軸上の特定の病院からのデータで連続トレーニングした後、すべてのコホートにわたって報告されます (さまざまなマーカーを使用。凡例を参照)。 (b)は、(a)と同じ実験設定の下で提案されたWUPERRモデルのAUCを示しています。 特定の施設での (検査データに対する) 評価時に、モデルはすべての病院コホートに対して評価されます。 実線スタイルは、特定のサイトでのモデル評価 (テスト データ上) の時点で、モデルがそのサイトからのトレーニング データをすでに参照していたことを示します。 たとえば、モデルは最初に病院 A のデータでトレーニングされるため、後続のすべての病院で継続的に学習した後のこのデータセットでのモデルのパフォーマンスは実線で表示され、モデルが既にこの患者コホートを観察していたことを示しています。過去。 (c) は、転移学習 (赤) と WUPERR (青) を使用して 4 つの病院すべてで継続学習した後の病院 A ~ C のモデル パフォーマンス (中央値 [IQR]) をまとめています。

敗血症の発症を早期に予測するための継続学習モデルの評価。陽性的中率 (PPV) と感度を使用して測定されます。 (アトランタ) 転移学習を使用してトレーニングされたモデルの PPV (中央値 [IQR]) を示します (すべてのフォールドおよびすべてのタスクにわたって、タスク 1 後に病院 A で 80% の感度に対応する 0.41 の固定しきい値で測定)。 モデルのパフォーマンスは、X 軸上の特定の病院からのデータで連続トレーニングした後、すべてのコホートにわたって報告されます (さまざまなマーカーを使用。凡例を参照)。 (アトランタ) は、(アトランタ) と同じ実験設定の下で提案された WUPERR モデルの PPV を示しています。 (アトランタ) は、転移学習 (赤) と WUPERR (青) を使用して 4 つの病院すべてで継続学習した後の病院 AC でのモデルのパフォーマンス (中央値[IQR]) を要約しています。 (d – f) 同じ実験プロトコルの下でのモデルの感度結果を要約します。

WUPERR フレームワークを使用して、敗血症の発症 (敗血症および敗血症性ショックの Sepsis-3 コンセンサス定義に従って定義) を 4 時間前に逐次予測するモデルをトレーニングしました 38。 データ分布の変動がモデルのパフォーマンスに及ぼす影響を調査するために、さまざまな基礎的な人口統計的特徴を持つ 4 つの救命救急センターに所属する 104,000 人を超える患者を対象にモデルを連続的にトレーニングしました。 モデルは最初に病院 A データセット (タスク 1) でトレーニングされ、続いて病院 B (タスク 2)、病院 C (タスク 3)、病院 D (タスク 4) でトレーニングされました。 WUPERR フレームワークを使用して逐次トレーニングされたモデルのパフォーマンスが、ベースラインの転移学習アプローチと比較されました。 図 2a ~ 図 2c は、4 つの病院データセットに対する WUPERR のパフォーマンスを示しています。モデルは一度に 1 つのコホートでトレーニングされ、パフォーマンスは他のすべてのコホート (以前および後続のコホート) からのデータをテストして報告されています。 転移学習アプローチでは、新しいコホートでのトレーニングが進むにつれて、以前のコホートでのモデルのパフォーマンスが低下することが観察されました。 一方、WUPERR による逐次トレーニングにより、モデルは古いタスクでも同等のパフォーマンスを維持できました。 たとえば、転移学習を使用したタスク 4 の終了時、タスク 2 のモデルの AUC は 0.90 [0.89 ~ 0.91] で、病院からのデータでモデルをトレーニングしたときの AUC 0.93 [0.92 ~ 0.94] から低下しました。 -B (タスク 2 に対応)。 比較すると、WUPERR を使用したタスク 4 の終了時点で、モデルはタスク 2 のパフォーマンスを維持し、AUC は 0.93 [0.91–0.94] でした。 特に、モデルが曝露される後続のトレーニング コホートの数が増加するにつれて、転移学習に対する WUPERR の優位性が高まることが観察されました (図 2c、病院 D でのトレーニング終了時の病院 A でのパフォーマンスを参照)。 さらに、タスク 4 の終了時点で、WUPERR アプローチでトレーニングされたモデルが、すべての病院コホートにわたって転移学習よりも優れたパフォーマンスを示したことが観察されました (図 2b を参照)。

図 3 では、WUPERR アプローチとベースライン転移学習アプローチを使用して 4 つのコホートで連続的にトレーニングされたモデルの陽性的中率 (PPV) を比較しました。 タスク 1 のトレーニング完了後に、80% の感度に対応する決定閾値が選択されました。次に、この決定閾値を使用して、残りのすべてのタスクの陽性的中率 (PPV) が測定されました。 WUPERR がすべてのタスクにわたって転移学習アプローチよりも一貫して優れていることが観察されました (図 3a ~ c​​ を参照)。 たとえば、WUPERR を使用すると、病院 A の陽性的中率 (PPV) がタスク 1 後の 37.28 [35.57 ~ 37.69] からタスク 4 の終了までに 39.27 [38.11 ~ 39.78] に改善しましたが、転移学習アプローチでは陽性的中率が向上しました。 (PPV) は、タスク 4 の終了までに 31.28 [30.11 ~ 31.78] に低下しました。さらに、WUPERR は、タスク 2、3、および 4 で順次トレーニングを受けながら、病院 A コホートで一貫した感度レベルを維持することができました (79.70 [78.50それぞれ –82.57]、79.76 [79.57–81.20]、80.06 [79.87–81.50])。 比較すると、転移学習アプローチの場合、モデルがタスク 2、3、および 4 でトレーニングされた場合、病院 A コホートの感度レベルは 80% 未満に低下しました (図 3d を参照)。 他の病院コホートでも同様の感受性パターンが観察されました。 最後に、WUPERR はトレーニング順序に対して堅牢であり、病院の順序が交換された場合でも一貫して転移学習アプローチを上回っていることが観察されました (補足図 S7 ~ S12 を参照)。

この研究では、複数の患者コホートにわたって一般化可能な臨床予測分析モデルをトレーニングするための継続学習アルゴリズムを設計し、検証しました。 WUPERR は、リハーサル記憶と重みの不確かさの伝播を統合し、臨床深層学習モデルが以前のタスク全体で許容可能なパフォーマンスを維持しながら新しいタスクを学習できるようにします。 私たちは、入院患者の敗血症の早期予測を含む 4 つの連続タスクについて、提案したアルゴリズムを評価しました。 私たちの結果は、WUPERR が臨床予測モデルの一般化性に悪影響を与えるデータ分布の変化にうまく対処できることを示しています。 WUPERR では、継続的な学習にデータ表現を使用することで、生のトレーニング データを各サイトに残すことができるため、医療データのプライバシーと自律性が維持されます。 私たちは、臨床的に関連する 3 つのパフォーマンス指標、つまり AUCroc、陽性的中率、感度を使用して、WUPERR を Transfer Learning21、EWC33、Experience Replay などのいくつかのベースラインと比較しました。 サイト固有のモデルを学習すると最高のパフォーマンスが得られると期待する人もいるかもしれませんが、そのようなモデルは外部サイトにはうまく一般化できない可能性があります。 WUPERR は、物忘れを軽減する 3 つの指標すべての点で、ベースラインの転移学習と EWC を上回りました。 WUPERR の主な利点の 1 つは、データ ポイントの埋め込み表現から学習できることです。これにより、WUPERR はプライバシーを保護した継続的な学習に適切なアプローチになります。

機械学習と深層学習の研究は、ヘルスケアにおける識別、診断、治療の提供において有望な結果を生み出しています39,40。 深層学習アルゴリズムのパフォーマンスの向上には、大規模で多様なデータセットが必要になるという代償が伴います41。 しかし、患者のプライバシーとデータ ガバナンスを考慮すると、データのサイロ化が進み、大規模な多施設データセットを構築する作業が非現実的になってきました。 データ サイロから複雑なモデルを学習する際の課題の一部は、分散学習アルゴリズムがローカル モデルの更新に依存してグローバル モデルを構築するフェデレーション ラーニングによって解決されています 25,42,43。 Huang らは、ICU 滞在の長期化と死亡率を予測するためにコミュニティベースの連合学習 (CBFL) フレームワークを導入しました 44。 Qayyumらは、Covid-1945患者を特定するためにクラスター化連合学習(CFL)を使用した。 フェデレーション学習モデルは有望ではありますが、特定のローカル サイト内で最適に機能しない可能性がある平均的なモデルを学習する傾向があります。 特に、標準的な連合学習方法では、患者の人口統計やワークフロー関連の実践の違いから生じるデータ分布の変化やモデルのドリフトの問題には対処できません。 一方、継続的な学習方法 (WUPPER など) を使用すると、モデルは以前のタスクのパフォーマンスを維持しながら、新しいタスクを段階的に学習できます。 これにより、モデルは、さまざまな医療現場にわたるデータ分散の動的な変化や変化に適応できます。 地理的に異なる 4 つの医療システムにわたる敗血症警告アルゴリズムの最近の縦断的分析では、時間の経過に伴う症例構成の変化による大幅なデータセットの変化が報告されました 46。 したがって、このようなシステムがデータ配信の根本的な変化に適応し、高レベルの精度を維持できるようにするには、アルゴリズムの監視47と継続的な学習が必要です。

この研究にはいくつかの制限があります。 提案された学習方法では、臨床現場全体で変化するデータ分布にモデルを適応させることができますが、重要な要件は入力データとラベルの品質です。 最近、分布外のサンプルを評価し、外れ値やノイズの多いデータを検出するための確率的フレームワークを提供するために、等角予測が導入されました47。 WUPERR を等角予測と組み合わせて使用​​すると、継続的な学習のために各サイトでの入力データの品質を制御できます。 さらに、さまざまなサイトでのラベルの品質の違いにより、継続的な学習が困難になる可能性があります。 WUPERR とラベル ノイズを評価および修正する方法を組み合わせることで、高品質のモデルをトレーニングするためのメカニズムが提供される可能性があります。 さらに、WUPERR は部分的なデータの可用性の問題には対処していませんが、成長を続けるニューラル ネットワークにおける最近の研究を WUPERR と組み合わせて、新しいデータセットの追加の変数や特徴を活用できるアルゴリズムを設計できます 48,49。 最後に、この研究で使用されたデータセットは主要な学術医療センターから収集されたものであり、小規模な地域病院や地方の病院を代表するものではない可能性があります。 ただし、微調整された事前トレーニング済みニューラル ネットワークは、小規模なデータセットで最初からトレーニングされたニューラル ネットワークよりも優れたパフォーマンスを発揮することが示されているため、私たちが提案するフレームワークは、大規模な臨床データ ウェアハウスを維持するのに必要なリソースを持たない小規模な病院に利益をもたらす可能性があります22。 要約すると、我々の発見は、一般化可能な臨床予測モデルの設計と更新に対する継続的学習の適用可能性についての重要な臨床的証拠を提供します。

カリフォルニア大学サンディエゴ校、エモリー大学病院、グレイディ病院、ベス イスラエル ディーコネス メディカル センター(以下、病院 A、病院 B、病院それぞれCと病院D)が研究コホートを構成しました。 すべての分析は、関連するガイドラインおよび規制に従って実行されました。 この研究で利用された匿名化データの使用は、カリフォルニア大学サンディエゴ校の治験審査委員会 (IRB\(\#\)191098)、エモリー大学/グレイディ病院の治験審査委員会 (IRB\(\#) によって承認されました。 \)110675)、ベス イスラエル ディーコネス メディカル センター (IRB\(\#\)0403000206)50、およびインフォームド コンセントの要件は、カリフォルニア大学サンディエゴ校、エモリー大学/グレイディ病院、およびベス イスラエルの IRB 委員会によって免除されました。ディーコネス メディカル センターは、医療保険の相互運用性と責任に関する法律 (HIPAA) のプライバシー規制に基づいて、匿名化された遡及データの使用に患者の同意を必要としないためです。 18歳以上の患者は、敗血症の最初の発症時またはICUからの移送時まで、ICU滞在中ずっと追跡調査された。 我々は、敗血症を、感染に対する宿主反応の調節不全によって引き起こされる生命を脅かす臓器の機能不全として定義する、敗血症に関する第 3 回国際コンセンサス定義 (Sepsis-3)38,51 によって提供された最新のガイドラインに従いました。 したがって、敗血症の発症時期を確定するための 2 つの主な基準には、(1) 急性臓器機能不全の証拠、および (2) 感染症の疑いが含まれます。 感染症の臨床的疑いは、以下の条件のいずれかを満たしている血液培養検査と、抗生物質の静脈内(IV)投与の新たな開始が連続 3 日以上継続することによって定義されました(予防的使用を除く)。 (a) 最初に血液培養検査が指示された場合、その場合、抗生物質の指示は次の 72 時間以内に行われなければなりません、または (b) 抗生物質の指示が最初に行われた場合は、血液培養の採取は次の 24 時間以内に行われなければなりません。 臓器機能不全の証拠は、逐次臓器不全評価 (SOFA) スコアの 2 ポイント以上の増加として定義されました。 特に、Singer et al.51 で示唆されているように、感染が疑われる時間の 48 時間前から 24 時間後に発生した臓器機能不全の証拠が考慮されました。 最後に、敗血症の発症時刻を臨床的に感染症が疑われる時刻とした。 最初の検査と患者の安定化、および予測目的のための適切なデータ収集を可能にするために、ICU 入室後 4 時間目から始まる敗血症の時間ごとの逐次予測に焦点を当てました。 予測開始時間前に敗血症であると特定された患者、予測開始時間前に心拍数または血圧の測定がなかった患者、または特定のケアユニット内の滞在期間が 21 日を超えた患者は除外されました。

4 つの病院全体で合計 40 の臨床変数が抽出されました (補足資料の図 S2 を参照)。 さらに、すべてのバイタルサインと実験室変数について、その局所的な傾向 (変化の傾き) と変数が最後に測定されてからの時間 (TSLM) が記録され、合計 108 個の特徴が得られました (同じ変数セットが使用されています)。以前に発表された研究47)。 4 つのコホートすべての患者の特徴が補足表 S1 にまとめられています。 すべての連続変数は、25% および 75% の四分位範囲 (IQR) の中央値として報告されます。 バイナリ変数はパーセンテージとして報告されます。 すべてのバイタルサインと実験室変数は、敗血症コホートで利用可能なデータのさまざまなサンプリング頻度に対応するために、1 時間および 1 日の重複しない時系列ビンに編成されました。 複数の測定値が利用可能な場合は中央値を取得することにより、1 時間 (または 1 日) ごとに 1 回よりも高いサンプリング頻度を持つすべての変数が 1 時間 (または 1 日) の時間ビンに均一に再サンプリングされました。 新しいデータが利用可能になると、変数は 1 時間ごとに更新されました。 それ以外の場合は、古い値が保持されます (サンプル アンド ホールド補間)。 平均補完を使用して、残りのすべての欠損値 (主に各レコードの先頭) を置き換えました。

WUPERR は、エピソード表現再生 (ERR) と重み不確実性伝播 (WUP) を組み合わせて、壊滅的な忘却の問題を軽減しながらタスクの継続的な学習を可能にします。 WUPERR の目標は、モデルが新しいタスク (つまり、新しい病院) でトレーニングされるときに、古いタスクでのパフォーマンスの低下を最小限に抑えることです。 WUPERR は、以前のタスクに関するモデル予測に重要なネットワーク パラメーターの統合 (ターゲットを絞った重み正則化スキームを介して) とエピソード エクスペリエンスの再生 (以前のトレーニング中に遭遇したサンプル データ表現を維持し、再トレーニング中にそれらの例を定期的に再検討することによって) を通じてこの目標を達成しようとします。 。 図 1 に、WUPERR アルゴリズムの概略図を示します。

N、J、K をそれぞれニューラル ネットワークのパラメーターの数、トレーニング エポックの数、タスクの総数とします。 タスク k のトレーニング時に、エポック j で計算された損失 \(L(j;\theta )\) は次のようになります。

ここで、 \(L_{CE}(j;\theta )\) はクロスエントロピー分類損失に対応し、 \(\theta _{n}^{k}(j-1)\) は n 番目のパラメーターに対応します。前のエポックのニューラル ネットワークの \(I_{n}^{k}(j-1)\) は、パラメーター \(\theta _{n}\) に関連付けられたフィッシャー情報 (不確実性の逆数) の近似値です。タスク k とエポック \(j-1\) の間。 タスク k およびエポック j 中のパラメーター \(\theta _{n}\) に対応する近似フィッシャー情報は次のように計算されます。

勾配の大きさはパラメータ空間内の点の周囲の損失曲面の急峻度に対応し、これが情報利得の尺度を提供することに注意してください。 タスク \(k (k = 2,\ldots , K)\) の場合、\(I_n^k\) は \(max (I_n^1,\ldots , I_n^{k-1})\) として初期化されます。

ベイジアン最適化を使用して、コスト関数正則化パラメーター (式 (1)) と不確実性推定移動平均パラメーター (式 (2)) を設定しました。その結果、\(\gamma =0.99\) と \( \beta =0.80\)、それぞれ。

タスク 1 の後、ニューラル ネットワークの最初の層に対応するパラメーターがフリーズされることに注意してください。 さらに、各タスク k のトレーニングの完了後、病院 k の患者のランダム サンプルに対応する隠れた表現 (\(h_1^k\); ニューラル ネットワークの第 1 層からの出力) が保存されます。 タスク 2 以降では、新しい患者コホート (病院 k) からのデータと、前のタスクから保存された非表示表現を使用して、ニューラル ネットワーク (最初の層を除く) を微調整します。 経験的に、モデルの再トレーニングは主に上位層パラメータに影響を与えるため、レイヤー1の重みの凍結はモデルのパフォーマンスにほとんど影響を与えないことに注意してください(補足図S13を参照)。

WUPERR アルゴリズムのパフォーマンスは、以下に示す 4 つのベースライン モデルと比較されました。

サイト固有のトレーニング: このアプローチでは、各病院サイトでモデルを個別にトレーニングし、新しいモデルが各タスクで個別にトレーニングされました。

転移学習:転移学習では、ソース タスクとターゲット タスクが同じ特徴空間から導出されることを前提としています。その結果、以前のタスクからの知識の移転により、新しいタスクの学習手順が加速され、それによってモデルのパフォーマンスが向上する可能性があります。 このアプローチでは、タスク k-1 でのトレーニング後のニューラル ネットワークのパラメーターがタスク k に転送され、タスク k からのデータを使用してさらに微調整されました。

転移学習フリーズ: このアプローチでは、ニューラル ネットワークの最初の層はタスク 1 でのトレーニング後にフリーズされました。タスク k-1 でのトレーニング後のニューラル ネットワークのパラメーターはタスク k に転送され、さらに微調整されました (最初のレイヤーを除くすべてのレイヤー)タスク k からのデータを使用します。

Elastic Weight Consolidation (EWC)33: このアプローチは、忘れを避けるために正則化項に依存します。 EWC は、選択した重みの学習プロセスを遅くし、新しいタスクの学習中に以前のタスクのより低い誤差に対応する領域に留まることで、古いタスクのニューラル ネットワークのパフォーマンスを保護します。 より多くの情報を運ぶ重みを特定するために、EWC はフィッシャー情報マトリックスに依存します。 EWC は、DNN での忘れを避けるために、すでに確認されているタスクに対して 2 次ペナルティの合計を実装します。

エピソード表現応答 (ERR): ERR では、現在のタスクのデータに加えて、以前のタスクからのデータの表現を使用してモデルを微調整します。 補足図 S13 は、タスク 1 からタスク 4 までトレーニングを継続したときの、ネットワークの重みの変化の層ごとのフロベニウス ノルムを示しています。 より深い層でのネットワークの重みの最大の変化が観察されました。これは、これらの層が新しいタスクの学習にとってより重要であることを示唆している可能性があります。 その結果、最初のネットワーク層内の重みを凍結しても、ネットワークが新しいデータセットに適応する能力にはほとんど影響を及ぼさないことが観察されました。 これにより、最初の層 (タスク 1 でのトレーニング後) をエンコード ネットワークとして使用して、上位ネットワーク層の表現を取得できるようになりました。 タスク 2 以降、新しいサイトごとにこれらの入力データ表現を以前のサイトのデータ表現と組み合わせて使用​​し、モデルをトレーニングしました。 後者 (つまり、以前のタスクからのデータ表現を再生する) により、ネットワークは新しいデータセットから学習しながら古いタスクを記憶することができます。

予測モデルは、整流線形単位 (ReLU) 活性化関数を備えた 4 層 (2 つの隠れ層) の完全に接続されたニューラル ネットワークでした。 トレーニングには、学習率 1e-3 の Adam オプティマイザーが使用されました。 さまざまなネットワーク アーキテクチャ パラメータとハイパーパラメータが補足表 S2 にリストされています。 最適なハイパーパラメーターを取得するために、ベイジアン最適化が実行されました (タスク 1 の開発コホートを使用)。

各サイトでは、トレーニングとモデルのテストのためにタスク データセットをそれぞれ 80 ~ 20% に分割しました。 トレーニングの各反復内で、新しいタスク データ表現 (つまり、最初のネットワーク層からのトレーニング データ出力) を、以前のタスクからランダムに選択されたデータ表現と組み合わせました。 4 つのデータセットすべてにわたって、トレーニングとテストの目的で 10 回の相互検証が使用されました。 敗血症コホートでは、最初に正規化変換を適用し、次に平均を減算して標準偏差で割ることによって、病院 A のトレーニング セットを標準化しました。 次に、敗血症コホート (病院 B、C、D) の残りのすべてのデータセットが、トレーニング データで使用されたのとまったく同じ変換を使用して正規化されました。

WUPERR は、AUCroc、陽性的中率、感度を含む 3 つの指標に基づいて 4 つの病院で敗血症を予測するためのいくつかのベースライン継続学習方法と比較されました。 敗血症の発生率は医療現場によって異なるため、タスク 1 の感度 80% に対応する閾値での陽性的中率メトリックを使用したモデルのパフォーマンスも報告します。さらに、評価時 (検査時)データ)、特定の施設で、すべての病院コホートでモデルが評価されました。 実線スタイル(図2、3および補足資料図S4〜S12)は、そのトレーニングデータがモデルによってすでに確認されている病院サイトを表すために使用され、破線はそのトレーニングデータを示すことに注意してください。モデルが対応する病院サイトでまだトレーニングされていないこと。 たとえば、図 2 では、モデルが最初に病院 A のデータでトレーニングされているため、後続のすべての病院で継続的に学習した後のこのデータセットでのモデルのパフォーマンスが実線で示されており、モデルがすでに確認済みであることを示しています。過去のこの患者コホート。 データの前処理は Numpy52 を使用して実行され、モデルは TensorFlow53 を使用して実装されました。

現在の研究で分析されたサンプル データセットは、PhysioNet Challenge 2019 Web サイト (https://physionet.org/content/challenge2019/) および WUPERR_CLP リポジトリ (https://github.com/NematiLab/WUPERR_CLP) から入手できます。 詳細については、担当著者にお問い合わせください。

モデルのトレーニングと検証に使用されるコードは、https://github.com/NematiLab/WUPERR_CLP で入手可能になります。

Yu、K.-H.、アラバマ州ビーム、IS コハネ ヘルスケアにおける人工知能。 ナット。 バイオメッド。 工学 2、719–731。 https://doi.org/10.1038/s41551-018-0305-z (2018)。

論文 PubMed Google Scholar

トポル、EJ 高性能医療: 人間と人工知能の融合。 ナット。 医学。 25、44–56。 https://doi.org/10.1038/s41591-018-0300-7 (2019)。

論文 CAS PubMed Google Scholar

Lee, CS & Lee, AY 継続学習機械学習の臨床応用。 ランセットディジット。 健康 2、e279 ~ e281。 https://doi.org/10.1016/S2589-7500(20)30102-3 (2020)。

記事 PubMed PubMed Central Google Scholar

タイラー、NS et al. 1 型糖尿病管理のための人工知能意思決定支援システム。 ナット。 メタブ。 2、612–619。 https://doi.org/10.1038/s42255-020-0212-y (2020)。

記事 PubMed PubMed Central Google Scholar

Zhou, Y.、Wang, F.、Tang, J.、Nussinov, R. & Cheng, F. 新型コロナウイルス感染症の薬物再利用における人工知能。 ランセットディジット。 健康https://doi.org/10.1016/S2589-7500(20)30192-8 (2020)。

記事 PubMed PubMed Central Google Scholar

SMマッキニーら。 乳がん検診用 AI システムの国際評価。 自然 577、89–94。 https://doi.org/10.1038/s41586-019-1799-6 (2020)。

論文 ADS CAS PubMed Google Scholar

アブラモフ医師ら深層学習の統合により、公開されているデータセットでの糖尿病性網膜症の自動検出が向上しました。 調査します。 眼科。 ヴィス。 科学。 57、5200–5206。 https://doi.org/10.1167/iovs.16-19964 (2016)。

記事 Google Scholar

De Fauw、J. et al. 網膜疾患の診断と紹介のための臨床応用可能な深層学習。 ナット。 医学。 24、1342–1350。 https://doi.org/10.1038/s41591-018-0107-6 (2018)。

論文 CAS PubMed Google Scholar

エステバ、A.ら。 ディープ ニューラル ネットワークを使用した皮膚科医レベルの皮膚がんの分類。 自然 542、115–118。 https://doi.org/10.1038/nature21056 (2017)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Fleuren、LMら。 敗血症予測のための機械学習: 診断検査精度の系統的レビューとメタ分析。 集中治療医学。 46、383–400。 https://doi.org/10.1007/s00134-019-05872-y (2020)。

記事 PubMed PubMed Central Google Scholar

イム、J.ら。 深層学習を使用して滲出性加齢黄斑変性症への移行を予測します。 ナット。 医学。 26、892–899。 https://doi.org/10.1038/s41591-020-0867-7 (2020)。

論文 CAS PubMed Google Scholar

Kim, H.、Goo, JM、Lee, KH、Kim, YT、Park, CM 肺腺癌患者の無病生存率を予測するための術前 CT ベースの深層学習モデル。 放射線学 296、216–224。 https://doi.org/10.1148/radiol.2020192764 (2020)。

論文 PubMed Google Scholar

ワン、P.ら。 リアルタイム自動検出システムにより結腸鏡ポリープと腺腫の検出率が向上: 前向きランダム化対照研究。 Gut 68、1813 ~ 1819 年。 https://doi.org/10.1136/gutjnl-2018-317500 (2019)。

論文 PubMed Google Scholar

Wang, F.、Casalino, LP、Khullar, D. 医学におけるディープラーニング - 約束、進歩、課題。 JAMAインターン。 医学。 179、293–294。 https://doi.org/10.1001/jamainternmed.2018.7117 (2019)。

論文 PubMed Google Scholar

Ching, T. et al. 生物学と医学におけるディープラーニングの機会と障害。 JR協会インターフェース 15、20170387。https://doi.org/10.1098/rsif.2017.0387 (2018)。

記事 PubMed PubMed Central Google Scholar

医療におけるディープラーニングに関する調査: なぜ、どのように、いつ? | Elsevier Enhanced Reader、https://doi.org/10.1016/j.inffus.2020.09.006。

Shokri, R. & Shmatikov, V. プライバシーを保護する深層学習。 コンピュータおよび通信セキュリティに関する第 22 回 ACM SIGSAC 会議議事録、CCS '15、1310 ~ 1321、https://doi.org/10.1145/2810103.2813687 (コンピューティング機械協会、米国ニューヨーク州ニューヨーク、2015 年)。

アラバマ州ビームとIS州コハネ ヘルスケアにおけるビッグデータと機械学習。 JAMA 319、1317 ~ 1318 年。 https://doi.org/10.1001/jama.2017.18391 (2018)。

論文 PubMed Google Scholar

ウォン、A.ら。 入院患者において広く導入されている独自の敗血症予測モデルの外部検証。 JAMAインターン。 医学。 181、1065–1070 (2021)。

記事 Google Scholar

ウォン、A.ら。 新型コロナウイルス感染症のパンデミック前およびパンデミック中の米国 24 の病院における敗血症モデルのアラートの定量化。 自工会ネットワーク。 4、e2135286 (2021) を開きます。

記事 Google Scholar

ウォーディ、G.ら。 外部から一般化可能な機械学習アルゴリズムを使用して、救急部門での敗血症性ショックへの進行を予測します。 アン。 出現。 Med.https://doi.org/10.1016/j.annemergmed.2020.11.007 (2021)。

記事 PubMed PubMed Central Google Scholar

Holder, AL、Shashikumar, SP、Wardi, G.、Buchman, TG & Nemati, S. ICU での敗血症に関連した昇圧剤の使用を予測するための、局所的に最適化されたデータ駆動型ツール。 クリティカル。 ケアメッド。 49、e1196–e1205 (2021)。

PubMed Google Scholar

健康、C. f. D.a. R. 医療機器としてのソフトウェアにおける人工知能と機械学習。 FDA (FDA、2021)

Vokinger, KN、Feuerriegel, S. & Kesselheim, AS 医療機器における継続的な学習: FDA の行動計画とその先へ。 ランセットディジット。 健康 3、e337–e338 (2021)。

記事 Google Scholar

Rieke, N. et al. フェデレーテッド ラーニングによるデジタル ヘルスの未来。 npj 数字。 医学。 3、1~7。 https://doi.org/10.1038/s41746-020-00323-1 (2020)。

記事 Google Scholar

Kaissis、G. et al. エンドツーエンドのプライバシーを保護する多施設医療画像処理のディープラーニング。 ナット。 マッハ。 知性。 3、473–484。 https://doi.org/10.1038/s42256-021-00337-8 (2021)。

記事 Google Scholar

Warnat-Herresthal, S. et al. 分散型かつ機密性の高い臨床機械学習のための Swarm Learning。 自然 594、265–270。 https://doi.org/10.1038/s41586-021-03583-3 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Price, WN & Cohen, IG 医療ビッグデータ時代のプライバシー。 ナット。 医学。 25、37–43。 https://doi.org/10.1038/s41591-018-0272-7 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Zenke, F.、Poole, B.、Ganguli, S. シナプス インテリジェンスによる継続的な学習。 第 34 回機械学習国際会議議事録、3987 ~ 3995 (PMLR、2017)。 ISSN: 2640-3498。

van de Ven 氏、GM および Tolias、AS 継続的な学習のための 3 つのシナリオ。 arXiv:1904.07734 [cs、統計] (2019)。

Goodfellow, IJ、Mirza, M.、Xiao, D.、Courville, A. & Bengio, Y. 勾配ベースのニューラル ネットワークにおける壊滅的な忘却の実証的調査。 arXiv:1312.6211 [cs、統計] (2015)。

Kiyasseh, D.、Zhu, T.、Clifton, D. 疾患、時間、モダリティ、施設を超えて心臓信号から継続的に学習するための臨床深層学習フレームワーク。 ナット。 共通。 12、4221。https://doi.org/10.1038/s41467-021-24483-0 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

カークパトリック、J. et al. ニューラル ネットワークにおける壊滅的な忘却の克服。 arXiv:1612.00796 [cs、統計] (2017)。

Rebuffi, S.-A.、Kolesnikov, A.、Sperl, G. & Lampert, CH iCaRL: 増分分類器と表現学習。 arXiv:1611.07725 [cs、統計] (2017)。

Rolnick, D.、Ahuja, A.、Schwarz, J.、Lillicrap, TP & Wayne, G. 継続学習のためのリプレイ体験。 arXiv:1811.11682 [cs、統計] (2019)。

Lopez-Paz, D. & Ranzato, MA 継続的な学習のための勾配エピソード記憶。 神経情報処理システムの進歩、Vol. 30 (Curran Associates, Inc.、2017)。

Shin, H.、Lee, JK、Kim, J. & Kim, J. 深い生成再生による継続学習。 arXiv:1705.08690 [cs] (2017)。

敗血症の臨床基準の評価: 敗血症および敗血症性ショック (敗血症-3) の第 3 回国際コンセンサス定義について | 救命救急医学 | ジャム | JAMAネットワーク。

Rajkomar, A.、Dean, J.、Kohane, I. 医学における機械学習。 N.Engl. J.Med. 380、1347–1358。 https://doi.org/10.1056/NEJMra1814259 (2019)。

論文 PubMed Google Scholar

Norgeot, B.、Glicksberg, BS、Butte, AJ 深層学習ヘルスケアの呼びかけ。 ナット。 医学。 25、14-15。 https://doi.org/10.1038/s41591-018-0320-3 (2019)。

論文 CAS PubMed Google Scholar

Miotto, R.、Wang, F.、Wang, S.、Jiang, X.、Dudley, JT ヘルスケアのための深層学習: レビュー、機会、課題。 簡単な。 バイオインフォーム。 19、1236–1246。 https://doi.org/10.1093/bib/bbx044 (2018)。

論文 PubMed Google Scholar

Xu、J.ら。 医療情報学のためのフェデレーション ラーニング。 J. Healthc. 知らせる。 解像度 5、1~19。 https://doi.org/10.1007/s41666-020-00082-4 (2021)。

論文 PubMed Google Scholar

シェラー、MJ 他医学におけるフェデレーテッド ラーニング: 患者データを共有せずに多施設のコラボレーションを促進します。 科学。 議員 10、12598。https://doi.org/10.1038/s41598-020-69250-1 (2020)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Huang、L.ら。 患者クラスタリングにより、分散型電子医療記録を使用して死亡率と入院時間を予測するフェデレーション機械学習の効率が向上します。 J.Biomed. 知らせる。 99、103291。https://doi.org/10.1016/j.jbi.2019.103291 (2019)。

論文 PubMed Google Scholar

Qayyum, A.、Ahmad, K.、Ahsan, MA、Al-Fuqaha, A. & Qadir, J. ヘルスケアのための共同フェデレーション学習: エッジでのマルチモーダル 新型コロナウイルス感染症診断。 arXiv:2101.07511 [cs] (2021)。

ウォン、A.ら。 新型コロナウイルス感染症のパンデミック前およびパンデミック中の米国 24 の病院における敗血症モデルのアラートの定量化。 自工会ネットワーク。 4、e2135286 を開きます。 https://doi.org/10.1001/jamanetworkopen.2021.35286 (2021)。

記事 PubMed PubMed Central Google Scholar

Shashikumar, SP、Wardi, G.、Malhotra, A. & Nemati, S. 人工知能敗血症予測アルゴリズムは「わかりません」と言うように学習します。 技術。 議員(2021年)。 https://doi.org/10.1101/2021.05.06.21256764。

フン、C.-Y. 他。 忘れられない継続的な学習のために、圧縮し、選択し、成長させます。 神経情報処理システムの進歩、Vol. 32 (Curran Associates, Inc.、2019)。

Li, X.、Zhou, Y.、Wu, T.、Socher, R. & Xiong, C. 成長することを学ぶ: 壊滅的な物忘れを克服するための継続的な構造学習フレームワーク。 第 36 回機械学習国際会議議事録、3925 ~ 3934 (PMLR、2019)。 ISSN: 2640-3498。

ジョンソン、A.ら。 MIMIC-IV、https://doi.org/10.13026/S6N6-XD98。 バージョン番号: 1.0 タイプ: データセット。

シンガー、M.ら。 敗血症および敗血症性ショックの 3 番目の国際的コンセンサス定義 (敗血症-3)。 JAMA 315、801–810。 https://doi.org/10.1001/jama.2016.0287 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

ハリス、CR 他。 NumPy を使用した配列プログラミング。 ネイチャー 585、357–362 (2020)。

記事 ADS CAS Google Scholar

アバディ、M.ら。 Tensorflow: 大規模な機械学習のためのシステム。 OSDI Vol. 16、265–283 (2016)。

リファレンスをダウンロードする

ネマティ博士は、国立衛生研究所 (\(\#\)R01LM013998 および \(\#\)R35GM143121) とゴードンおよびベティ ムーア財団 (\(\#\)GBMF9052) から資金提供を受けています。 Holder 博士は、国立衛生研究所の国立総合医学研究所 (\(\#\)K23GM37182) および Baxter International から支援されています。 報告された実験のための計算リソースは、シャシクマール博士への AWS Research Award の一環として、Amazon からの寛大なクラウド クレジット助成金によって可能になりました。 プライバシー保護分析に関する洞察力に富んだ議論をしていただいた Gari D. Clifford 博士と Lucila Ohno-Machado 博士に感謝いたします。

カリフォルニア大学サンディエゴ校、生物医学情報学部門、サンディエゴ、米国

ファテメ・アムロラヒ、スプリース・P・シャシクマール、シャミム・ネマティ

米国アトランタのエモリー大学医学部、肺、救命救急、アレルギーおよび睡眠医学部門

アンドレ・L・ホルダー

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

FA、SPS、および SN は、この作品の最初の構想とデザインに関与しました。 FA はネットワーク アーキテクチャを開発し、実験を実施し、SPS と SN は実験をレビューし、結果の解釈に貢献しました。 ALH は臨床専門知識を提供し、結果の解釈と最終的な文書作成に貢献しました。 数字はすべてFAが用意した。 FA、SPS、ALH、および SN が原稿を執筆および編集しました。

シャミム・ネマティへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

アムロラヒ、F.、シャシクマール、SP、ホルダー、AL 他。 医療機関全体で臨床データを活用して、予測リスク モデルを継続的に学習します。 Sci Rep 12、8380 (2022)。 https://doi.org/10.1038/s41598-022-12497-7

引用をダウンロード

受信日: 2022 年 1 月 13 日

受理日: 2022 年 5 月 11 日

公開日: 2022 年 5 月 19 日

DOI: https://doi.org/10.1038/s41598-022-12497-7

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

共有