banner

ニュース

Sep 29, 2023

臨床人工知能の品質向上: 医療における AI アルゴリズムの継続的な監視と更新に向けて

npj デジタルメディスン 第 5 巻、記事番号: 66 (2022) この記事を引用

13,000 アクセス

19 件の引用

49 オルトメトリック

メトリクスの詳細

機械学習 (ML) および人工知能 (AI) アルゴリズムには、臨床データから洞察を導き出し、患者の転帰を改善する可能性があります。 ただし、これらの非常に複雑なシステムは環境の変化に敏感であり、パフォーマンスが低下する傾向があります。 ML/AI アルゴリズムは、臨床現場への統合に成功した後でも、長期的な安全性と有効性を確保するために継続的に監視および更新される必要があります。 臨床ケアにおいて AI を成熟させるために、私たちはこれらのアルゴリズムの品質保証と改善を担当する病院ユニットの創設を提唱しています。これを「AI-QI」ユニットと呼んでいます。 病院の品質保証と品質向上に長年使用されてきたツールを、静的 ML アルゴリズムの監視にどのように適用できるかについて説明します。 一方で、モデルを継続的に更新するための手順はまだ初期段階にあります。 既存の手法と手法革新の機会のどちらかを選択する際の重要な考慮事項を強調します。

臨床分野における人工知能 (AI) と機械学習 (ML) の使用は、過去数十年にわたって大幅に発展しており、医用画像処理、心臓病学、急性期治療において数多くの例が見られます 1、2、3、4、5、6。 実際、米国食品医薬品局 (FDA) によって臨床使用が承認された AI/ML ベースのアルゴリズムのリストは急速に増加し続けています7。 これらの医療アルゴリズムの開発は加速しているにもかかわらず、クリニックへの導入は限られています。 統合を成功させるまでに直面する課題は、初期の開発および評価段階をはるかに超えています。 ML アルゴリズムはデータに大きく依存するため、主な懸念事項は、そのパフォーマンスが特定のコンテキスト、特定の時間にデータがどのように生成されるかに大きく依存することです。 これらのモデルは複雑であるため、潜在的な故障モードが曖昧になる可能性があるため、これらのモデルが時間の経過とともに現実世界の設定でどのように動作するかを予測することは困難な場合があります8。 現在、FDA は承認後にアルゴリズムを変更しないことを要求しており、これを「ロックされている」と表現しています。 このポリシーにより有害なモデル更新の導入は防止されますが、医療などの非常に動的な環境では、ロックされたモデルのパフォーマンスが時間の経過とともに低下する可能性があります。 実際、多くの研究者が、患者の症例構成、臨床実践パターン、治療選択肢などによる ML パフォーマンスの低下を文書化しています9、10、11。

AI/ML ベースの臨床アルゴリズムの長期的な信頼性と有効性を確保するには、定期的なモニタリングとメンテナンスのシステムを確立することが重要です12、13、14。 継続的な監視と更新の重要性は多くの最近の論文で認識されていますが、ほとんどの論文では、そのようなシステムの実装方法について限定的な詳細しか提供していません。 実際、最も類似した研究は、インターネット企業における実稼働対応の ML システムの作成を文書化した最近の論文である可能性があります 18,19。 それにもかかわらず、医療現場は、エラーがより深刻な影響を及ぼし、サンプル数が少なく、データにノイズが多くなる傾向があるという点で異なります。

この研究では、臨床 AI アルゴリズム (AI-QI と呼ぶ) に対する同様の取り組みを設計するためのテンプレートとして、既存の病院の品質保証 (QA) および品質改善 (QI) の取り組み 20、21、22 に注目します。 標準的な臨床 QI 実践との類似点を描くことで、統計的プロセス制御 (SPC) の確立されたツールを臨床 AI ベースのアルゴリズムの監視にどのように適用できるかを示します。 さらに、グラウンド トゥルース データの欠如、AI による治療関連の打ち切り、データの高次元性など、AI アルゴリズムを監視する際の多くの特有の課題についても説明します。 モデルの更新はまったく新しいタスクであり、技術革新の機会が数多くあります。 モデル更新手順を選択する際の重要な考慮事項とトレードオフについて概説します。 AI-QI を効果的に導入するには、臨床医、病院管理者、情報技術 (IT) 専門家、生物統計学者、モデル開発者、規制当局間の緊密な連携が必要です (図 1)。 最後に、議論の基礎として、FDA が承認した Edwards の Acumen Hypotension Prediction Index23 にヒントを得た、急性低血圧エピソード (AHE) に対する仮説的な AI ベースの早期警告システムの例を使用します。

病院に導入された AI ベースのアルゴリズムの継続的な安全性と有効性を確保するために、施設はモデルのパフォーマンスを継続的に監視し、最新のパフォーマンス指標をエンドユーザーに伝達し、モデルを改訂したり、大幅に低下した場合にはその使用を一時停止したりするための合理化されたプロセスを必要とします。パフォーマンスが観察されます。 AI-QI はその分野横断的な性質を考慮して、臨床医、病院管理者、情報技術 (IT) 専門家、モデル開発者、生物統計学者、規制当局間の緊密な協力を必要とします。

Center for Medicare and Medicaid Services によって定義されているように、品質改善 (QI) は、ばらつきを減らし、予測可能な結果を​​達成し、患者、医療システム、組織。 このセクションでは、臨床 AI アルゴリズムが失敗する理由と、構造化され統合された AI-QI プロセスが必要な理由について説明します。

簡単に言うと、AI ベースのアルゴリズムは、患者の変数と結果の間の相関関係を検出することで、高い予測精度を実現します。 たとえば、差し迫った AHE を予測するモデルは、血圧の全体的な下降傾向や心拍数の上昇など、そのようなイベントの前に一般的に発生する生理学的信号のパターンに依存する場合があります。 相関ベースのモデルは、内部妥当性が優れている傾向があります。対象となる母集団がトレーニング データと類似している場合に、適切に機能します。 ただし、臨床環境が非常に動的で患者集団が不均一である場合、ある期間やある病院ではうまく機能したモデルが別の病院では機能しない可能性があります。 最近の例としては、新型コロナウイルス感染症 (COVID-1924) の出現により、呼吸数や到着モードなどの入力変数に依存する救急科 (ED) のプレゼンテーションに基づいて、どの患者が入院のリスクが高いかを判断するための ML アルゴリズムのパフォーマンスが低下していることが文書化されました。新型コロナウイルス感染症の拡大により大きな影響を受けた。

QI の文献によると、システム レベルのパフォーマンスの変動は、「一般的な原因」または「特殊な原因」の変動によるものです。 共通原因変動とは、システム内の予測可能かつ避けられない変動を指します。 AHE の例を続けると、将来の平均動脈圧 (MAP) レベルを予測するアルゴリズムには、生理学的パラメーターの固有の変動性があるため、必ずエラーが発生します。 この誤差は、メーカーの仕様と一致する限り許容されます。たとえば、観察および予測された MAP は 95% の確率で 5 mmHg 以内であると予想されます。 モデルを展開する前に、開発者はモデルを調整し、独立したデータを使用して一般的な原因の変動を特徴付けることができます25、26、27。 モデル開発者は、一般的な原因による変動の既知のソースをモデルに組み込んで、一般化可能性を向上させることもできます 28,29。

一方、特殊原因による変動は、システム内の予期せぬ変化を表します。 AHE の例では、病院が低血圧管理の新しいガイドラインに従っており、将来の MAP レベルと薬歴との関連性が変化する場合に、これが発生する可能性があります。 統計用語を使用すると、特殊原因変動とは、モデル入力 X とターゲット変数 Y の同時分布のシフトによるパフォーマンスの予期せぬ低下であり、より簡潔には分布またはデータセットのシフトと呼ばれます 30。 一般に、分布シフトは、入力変数 X の分布のみの変化と、X が与えられた場合の Y の条件付き分布の変化など、データ内のどの関係が変化したかに基づいて分類できます。

配布シフトのタイプが異なれば、異なる方法で処理する必要があります。 場合によっては、病院全体に周知された方針の変更など、差し迫った配分の変化が予想されることがあります。 このような種類の変化を常に把握するために、AI-QI の取り組みでは、病院の最新の出来事を常に把握し、メーリング リストに登録することで、積極的なアプローチをとることができます。 病院管理者や臨床医は、これらの変更が ML アルゴリズムのパフォーマンスに与える影響の解釈を支援できます。 その他の配布の変更は予告なく行われ、より微妙になる可能性があります。 これらの変化をできるだけ早く検出するには、ML アルゴリズムのパフォーマンスを監視する手順が必要になります。

特殊原因による変動は、持続的または孤立的(つまり、単一の観測値に影響を与えるもの)として特徴付けることもできます。 この原稿では、長期間にわたってパフォーマンスを低下させる可能性がある前者に焦点を当てます。 このようなシステムレベルの変化の検出は、通常、各観測を個別に分析することによっては達成できず、代わりに一連の観測を分析する必要があります。 対照的に、孤立したエラーは外れ値として見なすことができ、SPC で一般的な手法であるシューハート管理図 31 や一般的な外れ値検出方法 32 を使用してターゲットを絞ることができます。

システム パフォーマンスの低下の理由が不明瞭な場合、特性要因図 (フィッシュボーン ダイアグラムまたはイシカワ ダイアグラムとも呼ばれる) は、潜在的な原因を解明するのに役立つ QI の正式なツールです 31。 図の「先頭」は影響であり、モデルのパフォーマンスの低下です。 潜在的な原因は、主要なカテゴリごとにグループ化されてブランチにリストされます。 AHE 早期警報システムの因果関係図の例を図 2 に示します。QI の因果関係図は、因果推論文献 33 の因果有向非巡回グラフと多くの類似点を共有しています。 実際、ML コミュニティによって独自に開発された最近のアイデアは、因果関係図を使用して、さまざまな種類のデータセットのシフトがモデルのパフォーマンスにどのような影響を与えるかを理解することです 29,34。

各分岐は、潜在的な原因のカテゴリを表します。 この効果はモデルのパフォーマンスとして定義され、受信者動作特性曲線 (AUC) の下の面積によって測定されます。

一般的に、パフォーマンス低下の潜在的な原因は、(i) ターゲット変数 Y の分布の変化、(ii) モデル入力 X の分布の変化、(iii) X と Y の関係の変化に分類できます。統計用語を使用すると、(i) と (ii) はそれぞれ Y と X の周辺分布のシフトを指し、(iii) は Y∣X または X∣Y の条件付き分布のシフトを指します。 これらの潜在的な原因は、同じデバイスを使用して測定された生理学的信号など、モデル入力の意味的に意味のあるサブグループに基づいてさらに分類できます。 すべての入力変数に関する変更を説明する必要がありますが、そのような機能の変化はパフォーマンスの大きな変化を引き起こす可能性が高いため、高い機能の重要性が割り当てられたものには特に注意を払う必要があります。

AI モニタリングの目標は、特別な原因による変動が存在する場合に警報を発し、チームがモデルまたはデータ生成/収集プロセスに必要な修正を特定できるようにすることです。 一般的な原因による変動と特殊な原因による変動はどちらもパフォーマンスの低下を引き起こす可能性があるため、この 2 つを区別するには統計的手順が必要です。 ここでは、さまざまな種類のシフトを視覚化し、検出するのに役立つ SPC の標準ツールである統計管理図を紹介します。 このセクションでは、ロックされたモデルに焦点を当てます。 進化するアルゴリズムについては後で説明します。

一般的な管理図では、一連の観測値を考慮して、時間の経過に伴う要約統計量をプロットし、この統計量の正常な範囲を示す管理限界を表示します。 チャート統計が管理限界を超えると、特殊原因による変動が存在する可能性を示すアラームが発生します。 警報が鳴った後、病院は根本原因を調査し、是正措置が必要かどうか、必要な場合はどのような措置を講じるかを判断する必要があります。 これには、元のモデル開発者、医療提供者、IT 専門家、統計学者など、多くの組織の緊密な協力が必要です。

慎重に設計された管理図により、重要な変化の検出における遅延を最小限に抑えながら、誤報の割合が事前に指定されたしきい値を下回ることを保証します。 どの手順が最も適切で、どのように実装するかを決定するには、統計的なサポートが必要です。

次に、Y の周辺分布のシフトを検出する方法について説明します。 Y は通常低次元であるため、これは数学的に最も単純です。 これに基づいて、X の周辺分布のシフトを検出する方法、続いて条件付き分布のシフトを検出する方法について説明します。 表 1 は、このセクションで説明する方法の概要を示しています。

ラベル付きデータが利用可能な場合、管理図を使用して Y の分布の変化を監視できます。 1 次元の結果 Y の場合、単変量管理図を使用して、平均、分散、比率などの要約統計量の変化を監視できます。欠落。 AHE の例のコンテキストでは、これを使用して、AHE の有病率または平均 MAP 値の変化を監視できます。 Y が複数の結果のベクトルである場合、簡単な解決策は、それぞれに対して個別の管理図を作成することです。 このカテゴリに分類される一般的に使用される管理図には、シューハート管理図、累積和 (CUSUM) 管理図35、指数加重移動平均 (EWMA) 管理図31 などがあります。 実際には、Y の分布は季節性などの多くの変動源の影響を受ける可能性があります。 1 つの解決策は、既知の変動要因を考慮して各観測値の期待値をモデル化し、SPC 手法を適用して残差を監視することです。

統計管理図を使用して、入力変数の周辺分布の変化を監視することもできます。 これらのチャートの主な利点は、結果の測定が難しい場合や、長い時間が経たないと観察できない場合でも、簡単に実装できることです。

単変量管理図については前のセクションですでに説明しました。 これらは、入力変数を個別に監視するためにも使用できます。 入力変数間の関係を監視することが重要な場合は、代わりに、多変量 CUSUM および EWMA (それぞれ MCUSUM および MEWMA) や Hotelling の T2 36 などの多変量管理図を使用する必要があります。X が高次元の場合、従来の SPC 手法は誤報率が膨らむか、変化を検出するための電力が低下します。 これは、変数選択 37、次元削減技術 38、またはヒストグラム ビニング 39 を使用して対処できます。 生理学的波形、医療画像、臨床記録などの複雑なデータ タイプの場合、表現学習手法を使用すると、データを従来の管理図への入力に適した低次元ベクトルに変換できます40、41。 分布のシフトを検出するための基本は、2 つの分布間の距離を定量化することです。 最近の研究では、Wasserstein 距離、f ダイバージェンス 42、カーネルベースの測定 43、44 など、高次元の多変量確率分布間の新しい距離測定が提案されています。

ML アルゴリズムの複雑さを考慮して、多くの論文が変数重要度 (VI) などの ML 説明可能性メトリクスをモニタリングすることを提案しています 18,24。 これらのメトリクスにより、データをより解釈しやすい表現が提供されるという考え方です。 ただし、これらのグラフを過度に解釈しないことが重要です。 ML 文献で定義されているほとんどの VI メトリクスは、既存のモデルに起因する各特徴の重要性を定量化しているため、これらのメトリクスの変化は単に入力変数の分布の変化を示しています。 これらは、入力変数とターゲット変数の間の関係が変化したかどうか、またどのように変化したかを必ずしも示すわけではありません。 たとえば、特定の変数の平均 VI の増加は、その分布がより高い重要性が割り当てられた値に向かってシフトしていることを示しますが、その変数は実際には Y の予測性が低くなっている可能性があります。代わりに母集団レベルの変数の重要性を監視するには、次のようにすることをお勧めします45。次のセクションで説明する手法を使用して、X と Y の関係を監視します。

最後に、統計管理図を使用して、X と Y の間の関係の変化を監視できます。おそらく、最も直感的なアプローチは、元のモデルのトレーニングまたはテストに使用されたパフォーマンス メトリクスを監視することです46。 AHE の例では、予測された MAP 値と観測された MAP 値の間の平均二乗誤差 (MSE)、または予測された AHE リスクと観測された AHE イベントを考慮した受信者動作特性曲線下面積 (AUC) を監視することを選択できます。 このようなさまざまなメトリクスを追跡することで、モデルの識別、校正、公平性など、予測パフォーマンスのさまざまな側面を測定できます。 個々の観測値の平均損失 (MSE など) として定義されるパフォーマンス メトリクスは、前のセクションで説明したように、単変量管理図を使用して監視できます。 一連の観測値 (AUC など) を使用してのみ推定できるパフォーマンス メトリクスでは、代わりに観測値をグループ化し、バッチごとの概要を監視する必要があります。

パフォーマンス メトリクスを監視する手順はシンプルで直感的ですが、その大きな欠点は、限界分布または条件付き分布の変化によりパフォーマンスが低下する可能性があることです。 たとえば、AHE 早期警告システムの予測精度の低下は、患者集団の変化 (X の変化) または疫学の変化 (Y∣X の変化) が原因である可能性があります。 根本原因分析を導くには、この 2 つを区別することが重要です。 次に、条件付き分布のみに変化が生じたかどうかを検出する手順について説明します。

条件付き分布 Y∣X の変化を監視するには、Shiryaev-Roberts 手順 47,48 や一般化尤度比検定 (GLRT) 49,50 などの CUSUM 手順の一般化を適用できます。 簡単に言うと、これらのメソッドは、元のモデルと再適合されたモデルの間の差異を監視して、候補となる変更点を探します。 これら 2 つのモデル間の差異を監視することにより、これらの方法は条件付き分布の変化のみに敏感になります。 さらに、どのメトリクスを追跡するかをユーザーがより柔軟に決定できる、いわゆる一般化された M 変動テストのより広範なクラスを考慮することもできます 51。 どちらのモニタリング手順を選択するかを決定するときは、基礎となる前提を理解することが重要です。 たとえば、パラメトリック モデルを監視する手順は、ニューラル ネットワークなどの複雑な AI アルゴリズムを直接監視するために使用することはできませんが、パラメトリック再校正モデル (例: ロジスティック再校正 52) を監視するために使用できます。 最近の研究では、ノンパラメトリック拡張 53,54 や高次元 X を処理する方法 55,56,57 など、一般的な仮定を緩和することが検討されています。

場合によっては、代わりに X∣Y を監視することに興味があるかもしれません。 これは、たとえば、放射線画像 X を考慮して ML アルゴリズムが病気の診断 Y を予測する場合に関連します。これは、病気の症状が時間の経過とともに異なって現れ、結果として得られる画像が変化する可能性があるためです。 Y が少数の値しかとらない場合、前のセクションで説明した方法を使用して、各層内の X の分布を個別に監視できます。 Y が多くの値を取るか連続している場合、Y∣X の変化を監視するために前述の手順を使用できます。そこで X と Y の順序を切り替えます。高次元の X の場合、次元削減を適用する前に次元削減を適用する必要があります。これらのメソッドを使用して、代わりに縮小されたフィーチャと Y の間の条件付き関係を監視します。

医療分野で管理図の利用が増えているにもかかわらず、これらの手法の多くはもともと工業生産のために開発されたものであり、そこではデータがより均一であり、データ収集プロセスをより細かく制御できることを認識することが重要です。 これまでの研究では、健康関連の管理図アプリケーションと産業用アプリケーションの違いに対処する方法について説明しました58。 これらの方法を臨床 AI アルゴリズムの監視に使用すると、新たな課題と機会が生じます。 ここではそのような課題を 2 つ紹介しますが、この原稿では触れられない課題が他にもたくさんあります。

多くの設定で直面する大きな課題の 1 つは、アルゴリズムによって生成される予測とターゲット変数の間の待ち時間です。 たとえば、死亡率や二次悪性腫瘍の発症などの結果には、通常、長期間の追跡期間が必要です。 このような場合、アルゴリズムのパフォーマンスの変化にタイムリーに対応することが困難になります。 潜在的な解決策は、AI アルゴリズムが代理結果をどの程度正確に予測するかを監視することです。 この代替措置の変更は、何か問題が発生したことを示す「カナリア」として機能します。 例として、30 日間の患者の生存率を予測するように設計されたアルゴリズムを考えてみましょう。 アルゴリズムの AUC を監視して、患者の 5 日生存率などのより近いエンドポイントを予測して、検出遅延を短縮できます。 モデル開発者は、対象の結果とこれらの代理結果の両方の予測を出力するアルゴリズムを提供することで、AI-QI を促進することもできます。 AI-QI のコンテキストでの代理結果は、治療効果の測定に使用されるのと同じ形式的特性を必ずしも満たす必要がないことに注意してください59,60。これは、私たちの設定では誤報のコストがはるかに低いためです。

もう 1 つの課題は、AI による交絡です。 つまり、AI ベースのアルゴリズムが臨床的に実用的な予測を提供する場合、臨床医はアルゴリズムの予測に基づいて治療計画を調整することを選択できます。 AHE 早期警告システムの例に戻ると、ML アルゴリズムが次の 30 分以内に AHE が発生する可能性があるという警告を生成した場合、病院スタッフはそれに応じて輸液や昇圧剤による治療を行うことを決定する可能性があります。 30 分後に患者が降圧症状を経験しなかった場合、アルゴリズムが間違っていたのか、それとも処方された介入によって状況が変化したのかという疑問が生じます。 このような状況では、予測が利用できなかった場合に発生したであろう反事実的な結果を観察することができないため、人的要因61と交絡医療介入(CMI)の役割を考慮する必要があります。 AI ベースの予測がない場合には交絡が発生しますが 62、63、臨床医が意思決定プロセスで AI アルゴリズムを利用すると、CMI はより深刻になります 64、65、66。 実際、AI の効果が高ければ高いほど、AI アルゴリズムのパフォーマンスはより早く低下するように見えます。

統計的な観点から見ると、モデルのパフォーマンスの不偏な推定値を取得するための最良のアプローチは、医療提供者が AI ベースの予測を受け取っていない患者のサブセットをランダムに選択することです。 ただし、そのようなアプローチの倫理は検討する必要があり、病院の QI では通常、標準治療のわずかな変更のみが考慮されます。 もう 1 つのオプションは、欠損データと因果推論技術を利用して交絡を調整することです 66,67。 これは医療倫理の問題を回避しますが、因果推論方法は有効な結論を出すために強力な仮定に依存します。 データ ストリームを分析する場合、このような方法ではすべての時点で仮定が保持される必要があるため、これは困難になる可能性があります。 現時点では決定的な解決策はなく、さらなる研究が必要です。

ここでは、SPC を使用して AHE 早期警報システムのパフォーマンスを監視する方法を示すシミュレーションを示します (図 3)。 アルゴリズムが将来の MAP レベルを予測し、入力変数としてベースライン MAP と心拍数 (HR) に依存すると仮定します。 次の 15 分以内に MAP が 65 mmHg を下回ると予測されると、臨床医に通知されます。

ベースライン MAP と心拍数 (HR) という 2 つの入力変数に基づいて、患者が急性低血圧エピソードを発症するリスクを予測する、仮説的な MAP 予測アルゴリズムを考えてみましょう。 上の 2 行は、CUSUM プロシージャを使用して 2 つの入力変数の変化を監視します。濃い線はチャートの統計量、薄い線は管理限界です。 3 行目は、CUSUM プロシージャを使用して残差を監視することにより、結果変数と入力変数の間の条件関係の変化を検出することを目的としています。 チャート統計が管理限界を超えると、アラームが発生します。

シミュレーションでは、各時点で新しい患者を観察します。 時点 30 で 2 つのシフトが発生します。平均ベースライン MAP に小さなシフトを導入し、結果と 2 つの入力変数の間の条件付き関係に大きなシフトを導入します。 平均ベースライン MAP と HR、および条件関係 Y∣X の変化を検出するための管理図を構築します。 strucchange R パッケージ 68 によって提供される監視ソフトウェアを使用して、各管理図で誤警報率が 0.05 になるような管理限界を構築します。 チャート統計は時間 35 で管理限界を超えており、これは 5 時点の遅れに相当します。 警報が鳴ったら、病院は根本原因の分析を開始する必要があります。 図 2 の因果関係図を参照すると、患者集団における 新型コロナウイルス感染症 (COVID-19) の出現など、疫学の変化により条件関係が変化したと結論付けることができます。 この条件関係の変化が持続すると予想される場合、AI-QI チームはモデルを更新する必要がある可能性があります。

モデル更新の目的は、観察されたモデルのパフォーマンスの低下を修正し、そのような低下の発生を防ぎ、さらには時間の経過とともにモデルのパフォーマンスを向上させることです。 一連の患者データと転帰を分析することにより、これらの手順は分布の変化に継続的に適応できる可能性があります。 AI モニタリングとは対照的に、モデル更新手順では、一般的な原因による変動と特殊な原因による変動を必ずしも区別する必要がないことに注意してください。 それにもかかわらず、各変更の対象となっている変動の種類を理解することは、さらなる修正措置 (モデルではなくデータの前処理の更新など) が必要かどうかを明らかにできるため、多くの場合役立ちます。

提案された変更によってパフォーマンスが低下するリスクが常に存在するため、モデルの更新手順を軽視することはできません。 継続的なモデル更新の複雑さを考慮すると、臨床予測モデルに対する現在の現実世界の更新は、一般的にアドホックな 1 回限りの更新に限定されています 69,70。 それでも、AI アルゴリズムの長期的な有用性は、安全性と効果性が保証された定期的なモデル更新を導入する手順の確立にかかっています。 これを踏まえ、規制当局は現在、このいわゆる「アップデート問題」に対するさまざまな解決策を検討している71。 たとえば、米国 FDA は、モデル ベンダーに対して、変更がどのように生成され検証されるかを説明する文書であるアルゴリズム変更プロトコル (ACP) を提供することを提案しています15。 この枠組みは、一般医療機器に対する欧州医薬品庁の方針に沿ったものであり、すでにベンダーに対し変更管理計画の提供と市販後調査の実施を義務付けている72。

以下では、モデル更新手順を設計/選択する際の重要な考慮事項をいくつか取り上げます。 表 2 は、以下で説明する方法の概要を示しています。

パフォーマンス指標の選択は、ML モニタリングの場合と同様に、モデルの更新でも重要です。 その理由は、あるパフォーマンス メトリック セットに関して保証を提供するモデル更新手順では、他のパフォーマンス メトリックの低下を防ぐことができない可能性があるためです。 たとえば、オンライン学習文献の多くの結果は、進化するモデルのパフォーマンスが、数年にわたる対象集団全体の平均で元のモデルよりも優れていることを保証しています。 これは ML のパフォーマンス低下に対する第一レベルの防御を提供しますが、そのような保証は、進化するモデルがすべての部分集団内またはすべての時点で優れていることを意味するものではありません。 そのため、オンライン学習手順によってパフォーマンスがどのように定量化されるのか、またオンライン学習手順によってどのような保証が提供されるのかを理解することが重要です。 選択したモデル更新手順が望ましいパフォーマンス要件を満たしていることを確認するには、統計的なサポートが必要です。

もう 1 つの例は、アルゴリズムが犯罪を防ぐために都市全体に警察を配置しようとする予測警察の設定で生じます。73 は、観察された犯罪データに基づいてアルゴリズムを継続的に再トレーニングすることと、単純なパフォーマンス指標がどのように暴走フィードバックにつながるかを示しました。実際の犯罪率に関係なく、警察が繰り返し同じ地域に送り返されるループ。 これらの課題により、アルゴリズムの公平性を維持または促進し、有害なフィードバック ループの作成に耐性のあるパフォーマンス指標を設計するための研究が促進されています74、75、76。

異なるタイプのモデル更新のどちらを選択するかを決定するときは、その「モデルの複雑さ」とバイアスと分散のトレードオフを考慮する必要があります 77,78。 最も単純なタイプのモデル更新は再調整です。再調整では、元のモデルによって生成された連続スコア (予測リスクなど) が新しい値にマッピングされます。 例には、Platt スケーリング、温度スケーリング、および等張回帰が含まれます 79、80、81、82。 より広範なモデルの改訂では、他の変数を考慮して元のモデルからの予測が変換されます。 たとえば、ロジスティック モデルの改訂では、結果が元のモデルや他のシフト傾向の変数からの予測に対して回帰します83。 このカテゴリには、ニューラル ネットワークの最上位層のみを微調整する手順も含まれます。

最も複雑なモデルの更新は、モデルを最初から再トレーニングするか、まったく異なるモデルを適合させるものです。 より高い複雑性を選択する場合にはトレードオフがあります。複雑な分布の変化に対してはより適切に保護できますが、結果として生じる更新はデータ内のノイズの影響を受けやすく、モデルの複雑さを慎重に制御しないとオーバーフィットになる可能性があります。 医療現場ではデータの速度が遅い傾向にあるため、単純なモデルの更新が非常に効果的であることがよくあります84。

それにもかかわらず、より多くのデータが蓄積され続けるにつれて、より複雑なモデルの更新が最終的に役立つ可能性があります。 オンライン相互検証 85 やベイジアン モデルの平均化 86 などの手順は、時間の経過とともに最も適切なモデルの複雑さを動的に選択するのに役立ちます。

設計上のもう 1 つの考慮事項は、モデルの更新をいつ、どのくらいの頻度で行うかを決定することです。 大まかに言うと、2 つのアプローチが存在します。1 つは継続的な監視によって検出された問題に応じてのみモデルを更新する「リアクティブ」アプローチ、もう 1 つは問題が検出されなかった場合でもモデルを更新する「継続的更新」アプローチです。 後者は臨床現場ではあまり一般的ではありませんが、モデルの定期的な更新を求める声は複数あります87、88、89。 継続的な更新の利点は、モデルのパフォーマンスを (維持するだけでなく) 向上させ、環境の変化に迅速に対応し、パフォーマンスの悪いアルゴリズムにさらされる患者の数を減らし、臨床医の信頼を潜在的に向上させることができることです。

それにもかかわらず、継続的な更新手順の実装には多くの課題があります13。 たとえば、最新のデータのみを使用してモデルを再トレーニングする手順では、新しいデータをモデルに統合すると、過去に学習した知識が上書きされる可能性がある、「壊滅的な忘却」として知られる現象が発生する可能性があります。 一方で、以前に収集されたすべてのデータに基づいてモデルを再トレーニングする手順は、重要な時間的変化に適応できない可能性があり、計算コストが高くなります。 モデルの再トレーニングにどれだけのデータを使用するかを決定するには、遡及データに関するオンライン学習手順をシミュレートして、壊滅的な忘却のリスクと過去のデータの関連性を評価できます (例 10 を参照)。 もう 1 つの課題は、多くのオンライン更新方法では、現実的な期間にわたって意味のあるパフォーマンス保証を提供できないことです。 ニューラル ネットワークのような複雑な ML アルゴリズムを更新するための理論的な保証を確立することは特に困難です。 代わりに、最近の研究では、ブラックボックスのオンライン学習手順によって提案された変更を承認し、承認された変更が特定のパフォーマンス保証を満たすことを保証する「メタ手順」を採用することが提案されています。 そのような方法の中で、オンライン仮説テストは最も強力な保証を提供します90,91。 もう 1 つのアプローチは、オンライン ロジスティック再校正/改訂 92 やオンライン モデル平均化 93 などのモデル改訂の目的で、理論的特性を導出できるパラメトリック モデルの継続的な更新手順を使用することです。

学習されたモデルの更新のパフォーマンスは、トレーニング データの品質に依存します。 そのため、1 回限りのモデル更新に関する多くの発表された研究は、手動でトレーニング データを収集し、広範なデータ検証を実行することに依存しています 69,87。 このプロセスは非常に労力がかかる場合があります。 例えば、70 は、集中治療室の患者のせん妄のリスク予測モデルを更新するには、いかに慎重な実験計画が必要であるかを説明しました。 結果は主観的なものであるため、評価者間および評価者内の信頼性に関する典型的な問題を考慮する必要がありました。 さらに、導入された AI アルゴリズムからの予測が結果の評価に偏りをもたらす可能性があるため、評価者はアルゴリズムとその予測について知らされていない必要がありました。

それにもかかわらず、モデルの更新頻度が増加するにつれて、より自動化されたデータ収集とクリーニングが必要になります。 残念ながら、医療現場で最も容易に利用できるデータ ストリームは本質的に観察的なものであり、とりわけ結果の交絡、構造的バイアス、欠落、誤分類の影響を受けやすい94,95。 モデルが現実世界のデータ ストリームからどのように継続的に学習できるかを理解するには、さらなる研究が必要です。 データの出所とそれがオンライン学習手順にどのような影響を与えるかを理解するには、臨床医と IT 部門からのサポートが不可欠です。

臨床 AI を成熟させるには、AI システムを継続的に監視し、更新する必要があります。 アルゴリズムのパフォーマンスを監視するための一般的な統計フレームワークと、モデル更新手順を設計する際の重要な考慮事項について説明しました。 AI-QI について説明する中で、私たちは、AI-QI がモデル開発者、臨床医、IT 専門家、生物統計学者、規制当局間の協力を必要とする横断的な取り組みであることを強調してきました。 この取り組みの先頭に立つために、私たちは臨床企業に対し、AI/ML システムの継続的な監視とメンテナンスの先頭に立つ AI-QI チームを創設するよう促します。 AI-QI チームは、これらの異なるエンティティ間の「接着剤」として機能することで、病院レベルだけでなく国家レベルまたは多国籍レベルでも、これらのアルゴリズムの安全性と有効性を向上させることができます。

臨床 QI の取り組みは通常、部門/部門レベルで主導されます。 AI-QI には、特定の診療科で利用できるもの以外の多くの種類の専門知識とリソースが必要であるため、AI-QI エンティティは診療科をまたがるべきであると考えています。 このようなグループは、生物統計学部や疫学部などの既存の組織によって主催される場合があります。 あるいは、病院は、臨床ケアにおける AI モデルの開発、展開、維持の取り組みを一元化する、専用の臨床 AI 部門の設立を検討する可能性があります96。 このユニットがどこでホストされているかに関係なく、このチームの成功は、構造化データの取得、データ ガバナンス、統計および機械学習の専門知識、臨床ワークフローの統合などの主要な分析機能を備えているかどうかにかかっています。 その多くは、病院が十分なレベルの分析成熟度に達していることを前提としており (HIMSS「分析成熟度の採用モデル」などを参照)、病院の IT 部門が開発したツールに基づいています。 実際、IT 部門は、これらのデータ パイプラインを構築し、臨床医のワークステーションでモデルのパフォーマンス測定を明らかにする上で重要なパートナーとなります。

AI システムを臨床現場に導入するかどうかを決定する際には、病院がモデルの監視と更新の責任をモデル開発者と AI-QI チームの間でどのように分担するかを明確にすることも重要です。 これは、アルゴリズムが独自のものである場合に特に関係します。 アルゴリズムが社内チームによって開発される場合、責任分担はより柔軟になります。 たとえば、モニタリングを容易にするためにモデルをどのように設計すべきでしょうか?また、モデル ベンダーはアルゴリズムをモニタリングするためにどのようなツールを提供すべきでしょうか? 同様に、モデルベンダーはモデルを更新するためにどのようなツールとトレーニングデータを提供する必要がありますか? 1 つのオプションは、モデル ベンダーが AI-QI チームにこれらのツールを提供する全責任を負うことです。 このオプションの利点は、AI-QI チームの負担が最小限に抑えられ、モデル ベンダーが複数の機関からのデータを活用してモデルの監視とメンテナンスを改善できることです97,98。 それにもかかわらず、モデルベンダーが自社製品のパフォーマンスを監視する責任を負っているため、利益相反の潜在的な問題が生じます。 2 番目のオプションは、病院の地元の AI-QI ユニットが完全な責任を負うことです。 この利点は、病院が最も関連性の高い指標を選択するなど、監視パイプラインを完全に自由にできることです。 ただし、欠点は、他の機関からのデータを利用できなくなることです。これは、優れたアルゴリズムの変更を学習するのに特に役立ちます。 3 番目の最も可能性の高いオプションは、病院の AI-QI チームとモデル ベンダーの間で責任を分担することです。 たとえば、病院は施設固有の調整を導入する責任を負い、メーカーは複数の施設にわたるデータを使用してのみ学習できる、より広範なモデル更新を展開する責任を負います。

AI-QI チームによる病院レベルの監視に加えて、規制当局は国内または国際レベルで AI ベースのアルゴリズムの長期的な安全性と有効性を確保するために役立ちます。 現在の提案では、アルゴリズム ベンダーがパフォーマンス監視の先頭に立つことが求められています15。 ベンダーは監視パイプラインの設計において確かに主要な役割を果たしますが、利益相反を避けるために監視手順自体は独立した主体によって実行されるべきです。 この目的を達成するために、FDA の Sentinel Initiative99 のような既存の市販後監視システムを医療分野における AI ベースのアルゴリズムの監視に適用することができ、これらのプログラムの範囲を医薬品監視だけでなく「テクノビジランス」も含むように拡張することができます 100,101。 さらに、AI-QI チームは、ローカル モデルのパフォーマンスに関するデータと洞察を共有することで、この全国的な取り組みの主要なパートナーとして機能できます。 複数のサイトにわたってパフォーマンスの大幅な変動が検出された場合、規制当局は AI アルゴリズムのライセンスを保留する機能を備えている必要があります。

一般に、医療データ ストリームに適用される AI ベースのアルゴリズムの継続的な監視とメンテナンス方法の有効性を評価した研究はほとんどありません。これはおそらくタイムスタンプ付きの公開データセットが不足しているためです。 ほとんどの研究では、シミュレートされたデータ、または単一の民間医療データセットからのデータのいずれかが考慮されています52、92、93。 集中治療用医療情報マート (MIMIC) データベース 102 など、一般に公開されている大規模なデータセットは、より正確なタイムスタンプをリリースする方向に進んでいますが、データの匿名化に使用されるランダムな日付のシフトには、世界に存在する時間的シフトを弱めるという残念な副作用があります。データ。 患者のプライバシーを保護しながら、タイムスタンプ付きデータの ML モニタリングと更新手順をどのように検証できるかは、依然として未解決の問題です。

最後に、現在、AI アルゴリズムの監視とメンテナンスに利用できるソフトウェア パッケージはほとんどありません 103、104、105。 存在するものは、アルゴリズムの種類、データの種類、および/または提供する統計的保証のいずれかにおいて制限されています。 AI-QI 用の堅牢なオープンソース ソフトウェア パッケージを作成し、病院の AI 対応を促進することが急務となっています。

現在の調査ではデータセットが生成または分析されていないため、データ共有はこの記事には適用されません。

AHE 早期警告システムの監視例のコードは、補足資料に含まれています。

ハヌン、AY 他ディープ ニューラル ネットワークを使用した、外来心電図における心臓専門医レベルの不整脈の検出と分類。 ナット。 医学。 25、65–69 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

エステバ、A.ら。 医療におけるディープラーニングのガイド。 ナット。 医学。 25、24–29 (2019)。

論文 CAS PubMed Google Scholar

ピラッキオ、R. et al. ICU での医療上の意思決定を支援するために、ビッグデータとターゲットを絞った機械学習が活用されています。 アネスト。 クリティカルケアペインメッド。 38、377–384 (2019)。

論文 PubMed Google Scholar

Liu, S. et al. 救命救急における臨床意思決定支援のための強化学習: 包括的なレビュー。 J.Med. インターネット解像度 22、e18477 (2020)。

記事 PubMed PubMed Central Google Scholar

Adegboro, CO、Choudhury, A.、Asan, O. & Kelly, MM NICU および PICU における健康転帰を改善するための人工知能: 系統的レビュー。 Hosp Pediatr 12、93–110 (2022)。

論文 PubMed Google Scholar

Choudhury, A. & Asan, O. 患者の安全性における人工知能の役割: 体系的な文献レビュー。 JMIR 医学情報。 8、e18599 (2020)。

記事 PubMed PubMed Central Google Scholar

Benjamens, S.、Dhunnoo, P.、Meskó, B. 人工知能ベース (FDA 承認) の医療機器とアルゴリズムの現状: オンライン データベース。 NPJ Digit Med 3、118 (2020)。

記事 PubMed PubMed Central Google Scholar

スカリー、D. et al. 機械学習: 技術的負債の高金利クレジットカード。 神経情報処理システムの進歩、vol. 28 (Cortes, C.、Lawrence, N.、Lee, D.、M. 杉山、R. Garnett 編) (Curran Associates, Inc.、2015)。

Davis, SE、Lasko, TA、Chen, G.、Siew, ED、Matheny, ME 急性腎障害の回帰モデルと機械学習モデルの校正ドリフト。 混雑する。 医学。 知らせる。 准教授 24、1052–1061 (2017)。

記事 PubMed PubMed Central Google Scholar

Chen, JH、Alagappan, M.、Goldstein, MK、Asch, SM & Altman, RB データ駆動型の入院患者の臨床オーダーセットにおける将来の意思決定に対する臨床データの関連性の低下。 内部。 J.Med. 知らせる。 102、71–79 (2017)。

記事 PubMed PubMed Central Google Scholar

ネスター、B.ら。 非定常健康記録における機能の堅牢性: 一般的な臨床機械学習タスクにおける展開可能なモデルのパフォーマンスに関する注意事項。 ヘルスケアのための機械学習 106、381–405 (2019)。

Google スカラー

吉田 E.、フェイ、S.、バブーソ、K.、ラゴール、C.、マヴィリア、S. 臨床意思決定支援介入をモニタリングすることの価値。 応用クリン。 知らせる。 9、163–173 (2018)。

記事 PubMed PubMed Central Google Scholar

Lee, CS & Lee, AY 継続学習機械学習の臨床応用。 ランセット デジタル ヘルス 2、e279–e281 (2020)。

論文 PubMed Google Scholar

Vokinger, KN、Feuerriegel, S. & Kesselheim, AS 医療機器における継続的な学習: FDA の行動計画とその先へ。 ランセット デジタル ヘルス 3、e337–e338 (2021)。

論文 PubMed Google Scholar

米国食品医薬品局。 医療機器としての人工知能/機械学習 (AI/ML) ベースのソフトウェア (SaMD) の変更に関する規制枠組みの提案: ディスカッション ペーパーとフィードバックの要求。 技術。 議員(2019年)。

Liu, Y.、Chen, P.-HC、Krause, J. & Peng, L. 機械学習を使用した論文の読み方: 医学文献のユーザーズ ガイド。 JAMA 322、1806 ~ 1816 年 (2019)。

論文 PubMed Google Scholar

フィンレイソン、SG et al. 人工知能における臨床医とデータセットの変化。 N.Engl. J.Med. 385、283–286 (2021)。

記事 PubMed PubMed Central Google Scholar

Breck, E.、Cai, S.、Nielsen, E.、Salib, M. & Sculley, D. ML テスト スコア: ML の運用準備と技術的負債の削減のためのルーブリック。 参照: 2017 IEEE International Conference on Big Data (ビッグ データ)、1123–1132 (ieeexplore.ieee.org、2017)。

アメルシ、S.ら。 機械学習のためのソフトウェア エンジニアリング: ケーススタディ。 参照: 2019 IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP)、291–300 (2019)。

Benneyan, JC、Lloyd, RC、Plsek, PE 研究と医療改善のためのツールとしての統計的プロセス管理。 クオリティ。 サフ。 ヘルスケア 12、458–464 (2003)。

論文 CAS PubMed PubMed Central Google Scholar

トール、J. et al. 医療改善における統計的プロセス管理の適用: 系統的レビュー。 クオリティ。 サフ。 ヘルスケア 16、387–399 (2007)。

記事 PubMed PubMed Central Google Scholar

Backhouse, A. & Ogunlayi, F. 品質改善を実践へ。 BMJ 368、m865 (2020)。

記事 PubMed PubMed Central Google Scholar

ハティブ、F.ら。 機械学習アルゴリズムにより、高忠実度の動脈圧波形分析に基づいて低血圧を予測します。 麻酔学 129、663–674 (2018)。

論文 PubMed Google Scholar

ダックワース、C.ら。 説明可能な機械学習を使用してデータ ドリフトを特徴付け、新型コロナウイルス感染症 (COVID-19) の最中に救急外来に入院した場合の緊急の健康リスクを検出します。 科学。 議員 11、23017 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

DL ルービン 画像処理における人工知能: 放射線科医の役割。 混雑する。 コル。 ラジオル。 16、1309–1317 (2019)。

記事 PubMed PubMed Central Google Scholar

Gossmann, A.、Cha, KH & Sun, X. 分布シフトによるマンモグラフィーの病変分類のためのディープ ニューラル ネットワークのパフォーマンス低下: 人工的に作成された分布シフトに基づく分析。 掲載: Medical Imaging 2020: Computer-Aided Diagnosis、Vol. 11314、(香港ハーン編およびマサチューセッツ州マズロウスキー編)1131404 (国際光学フォトニクス学会、2020)。

Cabitza, F. et al. 外部であることの重要性。 医学における機械学習モデルの外部検証のための方法論的洞察。 計算します。 メソッド プログラム Biomed。 208、106288 (2021)。

論文 PubMed Google Scholar

Subbaswamy, A.、Schulam, P.、Saria, S. データセットのシフトによる障害の防止: 転送する予測モデルの学習。 で:Proc. 機械学習研究 Vol. 89 (Chaudhuri, K. & Sugayama, M. 編) 3118–3127 (PMLR、2019)。

Schölkopf、B. et al. 因果的学習と反因果的学習について。 で:Proc. 第 29 回機械学習国際会議、ICML'12 459–466 (オムニプレス、2012)。

Quionero-Candela, J.、Sugyama, M.、Schwaighofer, A. & Lawrence, ND Dataset Shift in Machine Learning (MIT Press、2009)。

Montgomery, D. 統計的品質管理の概要 (Wiley、2020)。

Aggarwal、CC 外れ値分析の概要。 参照: 外れ値分析 1 ~ 34 (Springer、2017)。

Greenland, S.、Pearl, J. & Robins, JM 疫学研究のための因果関係図。 疫学 10、37–48 (1999)。

論文 CAS PubMed Google Scholar

Castro, DC、Walker, I. & Glocker, B. 医療画像処理では因果関係が重要です。 ナット。 共通。 11、3673 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

ページ、ES 継続的検査スキーム。 Biometrika 41、100–115 (1954)。

記事 Google Scholar

Bersimis, S.、Psarakis, S. & Panaretos, J. 多変量統計プロセス管理図: 概要。 クオリティ。 安心。 工学内部。 23、517–543 (2007)。

記事 Google Scholar

Zou, C. & Qiu, P. LASSO を使用した多変量統計的プロセス制御。 混雑する。 統計准教授 104、1586–1596 (2009)。

記事 Google Scholar

Qahtan, AA、Alharbi, B.、Wang, S. & Zhang, X. 多次元データ ストリーム用の PCA ベースの変更検出フレームワーク: 多次元データ ストリームの変更検出。 で:Proc. 第 21 回 ACM SIGKDD 知識発見とデータ マイニング国際会議 935 ~ 944 (コンピューティング機械協会、2015 年)。

Boracchi, G.、Carrera, D.、Cervellera, C. & Macciò, D. QuantTree: 多変量データ ストリームの変化検出のためのヒストグラム。 で:Proc. 第 35 回機械学習国際会議 Vol. 80 (Dy, J. & Krause, A. 編) 639–648 (PMLR、2018)。

Rabanser, S.、Günnemann, S. & Lipton, Z. 大声で失敗する: データセットのシフトを検出する方法の実証的研究。 In: 神経情報処理システムの進歩 Vol. 32 (Wallach, H.、Larochelle, H.、Beygelzimer, A.、d'Alché-Buc, F.、Fox, E. & Garnett, R. 編) 1396–1408 https://proceedings.neurips.cc /paper/2019/file/846c260d715e5b854ffad5f70a516c88-Paper.pdf (Curran Associates, Inc.、2019)。

Qiu、P. ビッグデータ? 統計的プロセス管理が役に立ちます。 午前。 統計 74、329–344 (2020)。

記事 Google Scholar

Ditzler, G. & Polikar, R. Hellinger の距離に基づく非定常環境のドリフト検出。 参照: 2011 IEEE Symposium on Computational Intelligence in Dynamic and Uncertain Environmentals (CIDUE) 41-48 (2011)。

Gretton, A.、Borgwardt, K.、Rasch, M.、Schölkopf, B. & Smola, A. 2 サンプル問題のカーネル法。 In: 神経情報処理システムの進歩 Vol. 19 (Schölkopf, B.、Platt, J. & Hoffman, T. 編) (MIT Press、2007)。

Harchaoui, Z.、Moulins, E. & Bach, F. カーネル変化点分析。 神経情報処理システムの進歩 Vol. 21 (Koller, D.、Schuurmans, D.、Bengio, Y.、Bottou, L. 編) (Curran Associates, Inc.、2009)。

Williamson, BD & Feng, J. shapley 値を使用した母集団特徴の重要性に関する効率的なノンパラメトリック統計的推論。 で:Proc. 第 37 回機械学習国際会議 Vol. 119 (Daume. H. III および Singh, A. 編) 10282–10291 (PMLR、2020)。

西田和也 & 山内和也: 統計的検定を使用した概念ドリフトの検出。 出典: Discovery Science 264–269 https://doi.org/10.1007/978-3-540-75488-6_27 (シュプリンガー ベルリン ハイデルベルク、2007)。

Shiryaev、AN 問題を迅速に検出するための最適な方法について。 理論確率。 応用 8、22–46 (1963)。

記事 Google Scholar

サウスカロライナ州ロバーツ いくつかの管理図手順の比較。 テクノメトリクス 8、411–430 (1966)。

記事 Google Scholar

Siegmund, D. & Venkatraman, ES 変化点の逐次検出に一般化尤度比統計を使用。 アン。 統計学 23、255–271 (1995)。

Google スカラー

Lai, TL & Xing, H. 変更前および変更後のパラメーターが不明な場合の連続的な変更点の検出。 続アナル。 29、162–175 (2010)。

記事 Google Scholar

Zeileis, A. & Hornik, K. パラメーターの不安定性に関する一般化された m 変動テスト。 統計ニール。 61、488–508 (2007)。

記事 Google Scholar

Davis, SE、Greevy, RA Jr.、Lasko, TA、Walsh, CG & Matheny, ME 臨床予測モデルにおけるキャリブレーション ドリフトを検出し、モデルの更新に情報を提供します。 J.Biomed. 知らせる。 112、103611 (2020)。

記事 PubMed PubMed Central Google Scholar

Zou, C. & Tsung, F. 尤度比ベースの分布フリーの EWMA 管理図。 J.コモッド. 科学。 テクノロジー。 クオリティ。 42、174–196 (2010)。

記事 Google Scholar

Shin, J.、Ramdas, A.、Rinaldo, A. 逐次一般化尤度比検定のノンパラメトリック反復対数拡張。 IEEE J. Sel. Inform のエリア。 理論 2、691–704 (2021)。

記事 Google Scholar

Leonardi, F. & Bühlmann, P. 高次元回帰のための計算効率の高い変化点検出 https://doi.org/10.48550/ARXIV.1601.03704 (arXiv、2016) のプレプリント。

Enikeeva, F. & Harchaoui, Z. まばらな代替条件下での高次元の変化点検出。 アン。 統計 47、2051–2079 (2019)。

記事 Google Scholar

Liu, L.、Salmon, J.、Harchaoui, Z. 勾配ベースの学習マシンのスコアベースの変更検出。 参照: ICASSP 2021–2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 4990–4994 (2021)。

ウィスコンシン州ウッドオール ヘルスケアおよび公衆衛生監視における管理図の使用。 J.クアル. テクノロジー。 38、89–104 (2006)。

記事 Google Scholar

Huang, Y. & Gilbert, PB 主要な代替エンドポイントとしてのバイオマーカーの比較。 バイオメトリクス 67、1442–1451 (2011)。

記事 PubMed PubMed Central Google Scholar

Price, BL, Gilbert, PB & van der Laan, MJ ランダム化試験に基づく最適な代理母の推定。 バイオメトリクス 74、1271–1281 (2018)。

Asan, O. & Choudhury, A. ヒューマンファクターヘルスケアにおける人工知能アプリケーションの研究動向: マッピングレビュー。 JMIR うーん。 ファクター 8、e28236 (2021)。

記事 PubMed PubMed Central Google Scholar

Paxton, C.、Niculescu-Mizil, A.、Saria, S. 電子医療記録を使用した予測モデルの開発: 課題と落とし穴。 アミア・アンヌ。 症状手順 2013、1109–1115 (2013)。

PubMed PubMed Central Google Scholar

Dyagilev, K. & Saria, S. 介入による打ち切りが存在する場合の (予測) リスク スコアの学習。 マッハ。 学ぶ。 102、323–348 (2016)。

記事 Google Scholar

Lenert、MC、Matheny、ME & Walsh、CG そうでない限り、予後モデルは自らの成功の犠牲者になるでしょう。 混雑する。 医学。 知らせる。 准教授 26、1645–1650 (2019)。

記事 PubMed PubMed Central Google Scholar

Perdomo, J.、Zrnic, T.、Mendler-Dünner, C.、Hardt, M. パフォーマンス予測。 プロセスで。 第 37 回機械学習国際会議 Vol. 119 (Daumé. H. III および Singh, A. 編) 7599–7609 http://proceedings.mlr.press/v119/perdomo20a/perdomo20a.pdf (PMLR、2020)。

ライリー、J.ら。 介入後のモデル更新は、逆説的にバイアスをもたらします。 内部。 会議アーティフ。 知性。 統計 130、3916–3924 (2021)。

Google スカラー

Imbens、GW & Rubin、『統計、社会、生物医学における DB 因果推論』 (ケンブリッジ大学出版局、2015 年)。

Zeileis, A.、Leisch, F.、Hornik, K. & Kleiber, C. strucchange: 線形回帰モデルの構造変化をテストするためのパッケージ。 J.統計ソフトウェア。 7、1–38 (2002)。

記事 Google Scholar

Harrison, DA、Brady, AR、Parry, GJ、Carpenter, JR & Rowan, K. 英国の成人一般救命病棟への入院の大規模多施設コホートにおけるリスク予測モデルの再調整。 クリティカル。 ケアメッド。 34、1378–1388 (2006)。

論文 PubMed Google Scholar

ヴァン・デン・ブーガード、M. 他 ICU 患者のせん妄予測モデルの再校正 (PRE-DELIRIC): 多国間観察研究。 集中治療医学。 40、361–369 (2014)。

論文 PubMed Google Scholar

Babic, B.、Gerke, S.、Evgeniou, T.、Cohen, IG 医療における規制上のロックダウンに関するアルゴリズム。 サイエンス 366、1202–1204 (2019)。

論文 CAS PubMed Google Scholar

欧州医薬品庁。 欧州議会および理事会の規則 (EU) 2017/745。 技術。 議員(2020)。

Ensign, D.、Friedler, SA、Neville, S.、Scheidegger, C.、Venkatasubramanian, S. 予測ポリシングにおける暴走フィードバック ループ。 In: 説明責任と透明性 Vol. 81 (フリードラー SA およびウィルソン C 編) 160–171 (PMLR、2018)。

橋本、T.、Srivastava、M.、Namkoong、H.、Liang、P. 繰り返しの損失最小化における人口動態のない公平性。 プロセスで。 第 35 回機械学習国際会議 Vol. 80 (Dy, J. & Krause, A. 編) 1929–1938 (PMLR、2018)。

Liu, LT、Dean, S.、Rolf, E.、Simchowitz, M. & Hardt, M. 公正な機械学習の遅延影響 Vol. 80、3150-3158 (PMLR、2018)。

Chouldechova, A. & Roth, A. 機械学習における公平性のフロンティア https://doi.org/10.48550/ARXIV.1810.08810 (arXiv、2018) のプレプリント。

Hastie, T.、Tibshirani, R. & Friedman, J. 統計学習の要素 (Springer、2009)。

James, G.、Witten, D.、Hastie, T. & Tibshirani, R. 統計学習入門 (Springer、2021)。

Platt, J. サポート ベクター マシンの確率的出力と正則化尤度法との比較。 上級 Large Margin Classifiers 10、61–74 (1999)。

Google スカラー

Niculescu-Mizil, A. & Caruana, R. 教師あり学習による良好な確率の予測。 で:Proc. 機械学習に関する第 22 回国際会議、ICML'05 625–632 (Association for Computing Machinery、2005)。

Guo, C.、Pleiss, G.、Sun, Y. & Weinberger, KQ 最新のニューラル ネットワークのキャリブレーションについて。 内部。 会議マッハ。 Learning 70、1321–1330 (2017)。

Google スカラー

Chen, W.、Sahiner, B.、Samuelson, F.、Pezeshk, A. & Petrick, N. 病気の確率に対する医療診断分類子スコアの校正。 統計方法 医学。 解像度 27、1394–1409 (2018)。

論文 PubMed Google Scholar

Steyerberg、EW 臨床予測モデル: 開発、検証、更新への実践的なアプローチ (Springer、2009)。 。

Steyerberg、EW、Borsboom、GJJM、van Houwelingen、HC、Eijkemans、MJC & Habbema、JDF 予測ロジスティック回帰モデルの検証と更新: サンプル サイズと縮小に関する研究。 統計医学。 23、2567–2586 (2004)。

論文 PubMed Google Scholar

Benkeser, D.、Ju, C.、Lendle, S.、van der Laan, M. オンライン交差検証ベースのアンサンブル学習。 統計医学 37、249–260 (2018)。

記事 Google Scholar

McCormick, TH 二項分類のための動的ロジスティック回帰と動的モデル平均化。 バイオメトリクス 68、23–30 (2012)。

Strobl、AN et al. 患者の前立腺がんリスク評価の改善: 世界的に適用される静的なリスク計算ツールから、実践に特化した動的なリスク計算ツールへの移行。 J.Biomed. 知らせる。 56、87–93 (2015)。

記事 PubMed PubMed Central Google Scholar

Futoma, J.、Simons, M.、Panch, T.、Doshi-Velez, F.、Celi, LA 臨床研究における一般化可能性の神話と医療における機械学習。 ランセット ディジット ヘルス 2、e489–e492 (2020)。

記事 PubMed PubMed Central Google Scholar

Vokinger, KN、Feuerriegel, S. & Kesselheim, AS 医療機器における継続的な学習: FDA の行動計画とその先へ。 ランセット ディジット ヘルス 3、e337–e338 (2021)。

論文 PubMed Google Scholar

Viering, TJ, Mey, A. & Loog, M. 学習者を単調にする。 In: Advances in Intelligent Data Analysis XVIII (Berthold, MR、Feeders, Ad & Krempl, G. 編) 535–547 https://doi.org/10.1007/978-3-030-44584-3_42 (Springer International Publishing) 、2020)。

Feng, J.、Emerson, S. & Simon, N. 医療機器としての機械学習ベースのソフトウェアの変更の承認ポリシー: バイオクリープの研究。 生体認証 (2020)。

Feng, J.、Gossmann, A.、Sahiner, B.、Pirracchio, R. パフォーマンス保証付きのリスク予測モデルのオンライン再調整と改訂のためのベイジアン ロジスティック回帰。 混雑する。 医学。 知らせる。 准教授 (2022年)。

Feng, J. 機械学習アルゴリズムの更新を安全に承認する方法を学習しています。 で:Proc. 健康、推論、学習に関する会議、CHIL'21 164–173 (Association for Computing Machinery、2021)。

コハネ、IS et al. 電子医療記録データを使用した研究について、すべての読者が知っておくべきことですが、尋ねることを恐れているかもしれないこと。 J.Med. インターネット解像度 23、e22219 (2021)。

記事 PubMed PubMed Central Google Scholar

Beesley、LJ et al. 電子医療記録に関連付けられたバイオバンクに基づく健康研究の新たな状況: 既存のリソース、統計上の課題、潜在的な機会。 統計医学。 39、773–800 (2020)。

論文 PubMed Google Scholar

Cosgriff, CV、Stone, DJ、Weissman, G.、Pirracchio, R. & Celi, LA 臨床人工知能部門: 成功の前提条件。 BMJヘルスケアインフォーム。 27、e100183 (2020)。

記事 PubMed PubMed Central Google Scholar

シェラー、MJ 他医学におけるフェデレーテッド ラーニング: 患者データを共有せずに多施設のコラボレーションを促進します。 科学。 議員 10、12598 (2020)。

論文 PubMed PubMed Central CAS Google Scholar

Warnat-Herresthal, S. et al. 分散型かつ機密性の高い臨床機械学習のための Swarm Learning。 Nature 594、265–270 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

米国食品医薬品局。 センチネル システム: 2019 ~ 2023 年の 5 か年戦略。 技術。 議員(2019年)。

Harvey, H. & Cabitza, F. アルゴリズムは新薬ですか? 影響評価と警戒の文化についての考察。 掲載: IADIS 国際会議 ICT、社会、人間 2018 (Macedo, M. および Kommers, P. 編) (MCCSIS 2018 の一部) (2018)。

Cabitza, F. & Zeitoun, J.-D. プリンの証明: 医療用人工知能の実世界での検証の文化を称賛。 Ann Transl Med 7、161 (2019)。

記事 PubMed PubMed Central Google Scholar

ジョンソン、A.E. 他 MIMIC-III、自由にアクセスできる救命救急データベース。 Sci Data 3、160035 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

Zeileis, A.、Leisch, F.、Hornik, K. & Kleiber, C. strucchange: 線形回帰モデルの構造変化をテストするためのパッケージ。 J.統計ソフトウェア。 第 7 条、1 ~ 38 (2002)。

Google スカラー

Bifet, A.、Holmes, G.、Kirkby, R.、Pfahringer, B. MOA: 大規模なオンライン分析。 J.マッハ。 学ぶ。 解像度 11、1601–1604 (2010)。

Google スカラー

Montiel, J.、Read, J.、Bifet, A.、Abdessalem, T. Scikit-multiflow: マルチ出力ストリーミング フレームワーク。 J.マッハ。 学ぶ。 解像度 19、1–5 (2018)。

Google スカラー

リファレンスをダウンロードする

著者らは、有益なフィードバックをくださった Charles McCulloch、Andrew Auerbach、Julian Hon、Linda Wang、および匿名の査読者に感謝いたします。 ビシャラ博士は、麻酔教育研究財団から資金提供を受けています。

カリフォルニア大学疫学生物統計学部、サンフランシスコ、米国カリフォルニア州

ジャン・フォン

Bakar Computational Health Sciences Institute、カリフォルニア大学サンフランシスコ校、サンフランシスコ、カリフォルニア州、米国

ジーン・フェン、アンドリュー・ビシャラ、ロマン・ピラッキオ

米国カリフォルニア州バークレーのカリフォルニア大学生物統計学部

レイチェル・V・フィリップス、イヴァナ・マレニカ、アラン・E・ハバード

カリフォルニア大学麻酔科、サンフランシスコ、米国カリフォルニア州

アンドリュー・ビシャラ & ロマン・ピラッキオ

マサチューセッツ工科大学医工学科学研究所、医学部、ベス・イスラエル・ディーコネス・メディカルセンター、 ハーバード大学THチャン公衆衛生大学院生物統計学部、ボストン、マサチューセッツ州、02115、米国

レオ・A・セリ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

JF: 概念化、調査、原稿の起草と編集、監修。 RVP: 調査、原稿の起草および編集。 IM:調査、原稿作成、編集。 AB: 調査、原稿編集。 AH: 原稿編集。 LC: 原稿編集。 RP:構想、原稿原案・編集、監修

ジャン・フォンへの通信。

Bishara 博士は、医療の質の高い介入を測定および改善するためのソフトウェアを構築する会社である Bezel Health の共同創設者です。 他の著者は、競合する利益は存在しないと宣言しています。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Feng、J.、Phillips、RV、Malenica、I. 他。 臨床人工知能の品質向上: 医療における AI アルゴリズムの継続的な監視と更新に向けて。 npj 数字。 医学。 5、66 (2022)。 https://doi.org/10.1038/s41746-022-00611-y

引用をダウンロード

受信日: 2021 年 11 月 16 日

受理日: 2022 年 4 月 29 日

発行日: 2022 年 5 月 31 日

DOI: https://doi.org/10.1038/s41746-022-00611-y

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

自然医学 (2023)

コミュニケーション医学 (2023)

npj デジタルメディシン (2022)

デジタルイメージングジャーナル (2022)

共有