banner

ニュース

Sep 11, 2023

機械学習により、ヒトのプーマラ ハンタウイルスの発生に対する簡単な早期警告ルールが特定される

Scientific Reports volume 13、記事番号: 3585 (2023) この記事を引用

523 アクセス

2 オルトメトリック

メトリクスの詳細

ドイツにおけるヒトプーマラウイルス(PUUV)の感染状況は、バンクハタネズミの個体数の変動に伴い、複数年ごとに変動しています。 私たちは年間発生率値に変換を適用し、地区レベルでのバイナリヒト感染リスクの直接的で堅牢なモデルを開発するためのヒューリスティック手法を確立しました。 この分類モデルは機械学習アルゴリズムを活用しており、前年の 3 つの気象パラメーター (2 年前の 4 月と前年の 9 月の土壌温度) のみを入力として使用したにもかかわらず、85% の感度と 71% の精度を達成しました。年と2年前の9月の日照時間。 さらに、局所的な PUUV 発生の空間的同期性を定量化する PUUV 発生指数を導入し、それを 2006 年から 2021 年の期間に報告された 7 件の発生に適用しました。 最後に、分類モデルを使用して PUUV 発生指数を推定し、最大 20% の不確実性を達成しました。

気候変動によって引き起こされる環境条件は、動物の自然の生息地を変化させ、食料の入手可能性に影響を与え、さらには種の分布の変化を引き起こすことによって、人獣共通感染症の蔓延にますます大きな役割を果たしています。 この枠組みの中で、我々はドイツにおけるヒトのプーマラオルトハンタウイルス(PUUV)感染リスクに関する単純な気象ベースのモデルを開発しました。

PUUV はヨーロッパで最も一般的なハンタウイルスで、バンクハタネズミ (Clethrionomys glareolus、同義語 Myodes glareolus) によって伝染します。 PUUV は、致死率 0.1 ~ 0.4% の腎症候群 (伝染性腎症) を伴う軽度から中度の出血熱を引き起こす可能性があります1。 ヒトの PUUV 感染症は数年ごとに変動します。 最近、ドイツでは \(>{1000}\) 件の年間報告例が数年続いています2。これは、過去にベルギー 3,4 やドイツ 5 で示されたように、一般的にブナ (ファグス仕様) マストの強度によって引き起こされる大規模なものです。 、6.

PUUV のヒトへの伝播速度の基礎となるメカニズムは、バンクハタネズミの個体数、PUUV の蔓延率、およびヒトとバンクハタネズミの相互作用に依存するため、直接モデル化するには複雑すぎるようです。 これらはすべて一時的に変動し、局所的に変化します。 それにもかかわらず、ヒトの PUUV 感染リスクの予測因子として気象条件を使用することができます。これは、バンクハタネズミの個体数の変動が過去 2 年間の気象パラメータと強く相関しているためです7。一方、PUUV の蔓延は主にバンクハタネズミの個体数に依存します 3,8。 9.

私たちは、2006 年から 2021 年にかけてヒトへの感染と発生率が顕著なドイツの地区を選択し、年間の PUUV 発生率と月次の気象パラメータの相関関係を地区レベルで検査しました。 PUUV 入射の時間変動の空間的同期性を強調するデータ変換を実行しました。 この変換により、地区関連の発生に対してサポート ベクター マシン (SVM) に基づいたバイナリ分類モデルを開発することが可能になり、全国的に適用可能で、簡単にアクセスできる気象パラメータのみに基づいています。 さらに、年間のヒトの PUUV 感染リスクの指標として PUUV 発生指数 (POI) を導入しました。 POI により、PUUV 発生の局所的な規模を考慮して、PUUV 発生の明確な定義が初めて可能になりました。 POI の定義は年間総感染者数とは独立していますが、その値は高度に相関しています。 最後に、バイナリ分類モデルを POI に適用し、適切な推定を行うには気象パラメータの 3 つの値だけで十分であることを示しました。 結合された POI モデルは、高リスクの年を検出するための単純な経験則として適用できます。 このようなモデルは、PUUV の発生を解釈するために使用できますが、げっ歯類の動態についての近似値を得るためにも使用できます。 これは、人間の健康と植物の両方を保護するための戦略と決定をサポートするために非常に重要です。

地域の感染と発生率の値に基づいて、2006 年から 2021 年にかけて PUUV が継続的に存在したドイツの 66 地区を選択しました (図 1)。 選択された地区では 10,090 件のヒト PUUV 感染が報告されており、この期間に全国で報告された感染総数の 89.9% に相当します (図 1、赤色のグラデーション)。 地区は 4 つのクラスターにグループ化されており、西岸ハタネズミの進化系統の範囲の仮説上の端と一致し 10、これまでに検出されたすべての PUUV 分子クレードを構成しています 11、12、13。 最初のクラスター (図 1、シアン色の輪郭) には、オランダ国境にあるニーダー ザクセン州とノルトライン ヴェストファーレン州の間の 10 の地区が含まれており、ミュンスターラントとトイトブルクの森のクレードに対応しています。 2 番目のクラスター (図 1、緑の輪郭) は、ノルトライン ヴェストファーレン州南西部の 2 つの地区で構成されており、どちらもラインラントクレードに属します。 最大のクラスター (図 1、紫色の輪郭) には、長さ約 450 km、最大幅約 200 km の中央の垂直回廊に 50 の地区が含まれており、ヘッセン州とチューリンゲン州からバイエルン州を通ってバーデンの南まで広がっています。スイスとの国境にあるヴュルテンベルク州。 このクラスターには、北東エッセン、シュペサートの森、シュヴァーベン ジュラ、チューリンゲンの森の PUUV 分子クレードが含まれます。 最後に、最後のクラスター (図 1、青い枠線) には、バイエルンの森の PUUV 分子クレードを含む、チェコ共和国との国境にあるバイエルン州東部の 4 つの地区が含まれています。

分析のための地区の選択。 ドイツ全土で選択された 66 の地区が、2006 年から 2021 年の PUUV 感染総数に応じて赤のグラデーションで表示されます。 カラーバーは [0, 50] の範囲で線形であり、視認性を高めるために [50, 650] で対数スケールされます。 バーデン=ヴュルテンベルク州(BW)から26地区、バイエルン州(BY州)から16地区、ヘッセン州(HE)から8地区、ニーダーザクセン州(NI)から3地区、ノルトライン=ヴェストファーレン州(NW)から10地区、ラインラント=プファルツ州から1地区( RP)、チューリンゲン州 (TH) から 2 名。 太い黒い線は連邦州を区切ります。 本文で説明されているように、太い色の線は、検出された PUUV 分子クレードの 4 つのクラスターを分離しています。 それ以降の地区は、同じカラーバーのスケールで灰色のグラデーションで表示されます。 このマップは、Python v3.8.5 の geopandas パッケージ v0.9.0 (https://geopandas.org) を使用して生成されました。 生データ、処理、および視覚化に関する詳細情報は、「方法」セクションで提供されます。

補足表 1 に示すように、都市地区とその隣接または周囲の農村地区を組み合わせた 12 の地区がありました。分離されたままの唯一の都市地区はケルン (ケルン)、ミュンスター、シュトゥットガルトであり、その面積は明らかに広いです。

発生率の値に対数変換を適用し、その後、地区ごとに個別の二項分類を適用しました。 結果として得られた 2 つのクラスには、「低リスク」と「高リスク」というラベルが付けられました。 地域での発生率が記録値の高発生率ビンに分類された年に、局地的な「アウトブレイク」が発生しました。 非流行年の地区における発生率はゼロであるか、この特定の地区での記録値と比較して低いと考えられました。 合計 1,056 件の観察 (16 年間 \(\times\) 66 地区) から、682 件が低リスク (65%) に割り当てられ、374 件が高リスク (35%) に割り当てられました。 高リスククラスに割り当てられた観察結果では合計 8,779 件の感染が記録されており、これはこの分析に含まれた感染総数の 87% (または 2006 年から 2021 年のドイツの総感染者数の 78%) でした。

二値分類は地区ベースであるため、地区に応じて同じ発生率値が低リスクまたは高リスクに割り当てられる場合があります (図 2)。

2006 年から 2021 年までの選択した地区の年間発生率の値。66 地区は最大年間発生率の順に並べられています。 低リスクのビンは青い三角形で示されます (プロットの左側)。 高リスクのビンは赤いひし形で示されます (プロットの右側)。 黒の三角形とひし形は、各ビンの平均値を示します。 実線は各ビンの発生範囲を強調表示します。 青と赤の線の間の白い隙間は、各地区の 2 つのビン間の分離を示しています。 X 軸は [0, 1] の範囲で線形であり、視認性を高めるために [1, 110] で対数スケールされます。 命名規則は、ドイツ語版の SurvStat@RKI 2.0 の命名規則と一致します。 LK: 農村地区 (ドイツの Landkreis に由来)、SK: 都市地区 (ドイツの Stadtkreis に由来)。

我々は、地域的な発生状況に基づいて、ドイツにおける年間のヒト PUUV 感染リスク、つまり世界的な PUUV 発生の指標として PUUV 発生指数 (POI) を開発しました。 POI の各年の値は、その年の感染リスクが高いと割り当てられた地区の割合として定義されました (表 1)。

選択した地区で報告された感染者数の合計が \(>{900}\) の年の POI 値は \(>\text{50\%}\) です。

私たちの初期の予測変数のプールは、過去 2 年間の月ごとの気象パラメーターで構成されていました。 二値化された対数変換された発生率の最適な分類モデルを導く変数の 3 つを選択しました: 2 年前の 4 月の土壌温度 (V2_ST_4)、2 年前の 9 月の総日照時間 (V2_SD_9)、および前年 9 月の地温 (V1_ST_9)。 結果として得られたモデルは、精度 82.6%、感度 84.8%、精度 71.4%、特異度 81.4%、F1 スコア 0.775 でした。 混同行列の要素は次のとおりです。真陰性 \({\text{TN}}={555}\) (合計 1056 の観測値の 53%)、偽陰性 \({\text{FN}}={57} \) (5%)、偽陽性 \({\text{FP}}={127}\) (12%)、真陽性 \({\text{TP}}={317}\) (30%) )。 高リスクの 5/7 の分類は正しく (精度)、実際の高リスクの観察のほぼ 6/7 は正しく分類されました (感度)。 偽陰性の観察結果は合計 301 件の感染となり、これは実際の高リスク観察における感染の 3.5% (または総感染数の 3.0%) でした。

ペア (V2_SD_9、V1_ST_9) と (V2_ST_4、V1_ST_9) の場合、2 つのリスク クラスは感度 \(>\text{77\%}\) と精度 \(>\text{67\%}\ で線形分離可能でした) )(図3a、b)。 気象パラメータの大部分は空間的に均一です。 したがって、各年の観測値はモデルの 3D 入力空間にクラスターを形成しました。 これらの「クラスター中心」の気象変数の値は、ドイツ全土の年間平均値でした。

モデルのビュー。 選択した 3D モデルの 3 つの変数ペアについて、2006 年から 2021 年までの 1056 個の観測値すべてを含む 2D 散布図。 (a)、(b)のV1_ST_9:前年9月の平均地温、(a)、(c)のV2_SD_9:前々年9月の日照時間、(b)、()のV2_ST_4 c): 2 年前の 4 月の平均地温。 黄色 (16 進カラーコード #FDE725FF) は低リスクの観測に対応し、藍 (16 進カラーコード #440154FF) は高リスクの観測に対応します。 重なっている赤い X マーカーは、クラスター センターと呼ばれる、ドイツ全体で平均された各年の変数の値を示します。 赤いひし形のマーカーは、2022 年 (塗りつぶされたマーカー) と 2023 年 (塗りつぶされていないマーカー) のドイツの平均値を示します。

気象変数のクラスタリングと各年のデータの分離により、モデルは各年のすべての地区を同じリスク クラスに分類しました。 唯一の例外は 2006 年と 2021 年で、これらの年はクラスターが平面クラス境界に最も近かった年です。 2006 年には、58 地区が低リスク クラスに分類され、8 地区が高リスク クラスに分類されました。 2021 年には、40 地区が高リスク クラスに分類され、26 地区が低リスク クラスに分類されました。 2007年、2010年、2012年、2015年、2017年、2019年のすべての観測は高リスククラスに分類され、PUUV発生年と指定されました。 一方、2008、2009、2011、2013、2014、2016、2018、2020 年のすべての観測は低リスク クラスに分類されました。

年間精度が最も高かったのは 2009 年の 98% (1 FN) でした。 さらに 7 年間、年間精度 \(>\text{90\%}\) が達成されました。つまり、流行年からは 2012 年、非流行年からは 2008、2011、2013、2016、2018、2020 年です。 年間精度が最も低かったのは 2015 年 (39 FP) の 41% で、次に 2021 年 (12 FP と 11 FN) の 65% でした。 2014 年の場合、誤った分類は偽陰性のみでした (15 FN、精度 77%)。 最も高い精度はバーデン ヴュルテンベルク州 (90%) で達成され、最も低い精度はノルトライン ヴェストファーレン州 (66%) とニーダー ザクセン州 (69%) でした。 バーデン ヴュルテンベルク州から 6 地区、バイエルン州から 2 地区、ヘッセン州から 1 地区が 100% の精度で検出されました。 別の 15 地区では、誤った分類が 1 つだけありました (FP 9 つと FN 6 つ)。 偽陰性の最大数はボルケン地区とベントハイム地区で、それぞれ 7 FN と 6 FN でした。 また、Borken の精度は学区の中で最も低く、44% (FN 7 名、FP 2 名) でした。

私たちの分類モデルによれば、超平面によって 2 つのリスク クラスが分離されました。 この超平面は 3D 空間の平面境界でした。

この平面に基づいて、予測前に利用可能になる最後の気象変数である V1_ST_9 に関するバイナリ感染リスクを定義できます。

ここで、係数は有効数字 3 桁に四捨五入されています。 方程式では、 (2)~(4)において、気温 ST の単位は °C、日照時間 SD の単位は時間です。 丸め誤差を最小限に抑えるには、ST の精度は小数点以下 2 桁以上、SD の精度は小数点以下 1 桁以上である必要があります。

分類モデルの平面境界からクラスター中心までの距離 (式 2) は、全体的な PUUV 感染リスクの定性的な尺度として機能します。 図 4 は、平面境界から対応するクラスター中心までの距離に関する 2006 年から 2021 年の POI を示しています。 観測値は 2 つのグループを形成します: \({\text{距離}}_{\text{t}}>-\text{0.03}\) (正の距離は観測値が V1_ST_9 に関して境界の上にあることを意味します。したがって、その年の感染リスクは高くなります) と \({\text{距離}}_{\text{t}}<-\text{0.37}\) (負の距離は、観測値が基準値を下回っていることを意味します) V1_ST_9 との境界であるため、その年の感染リスクは低いです)。 SciPy ライブラリの関数 f_oneway を使用した一元配置分散分析によってグループの平均を比較しました14。 F 値 97 および p 値 1.1 × 10−7 に基づいて、2 つのグループの平均は統計的に有意に異なると結論付けました。

分類モデルから PUUV 発生指数を推定します。 PUUV 発生指数として定義された、各年の高リスク地区の割合が、クラスター中心の平面境界、つまり気象パラメータの平均値によって定義される点からの距離に関してプロットされます。その年のドイツ上空。 赤い破線は、データへの区分的定数フィットを示しています (擬似 R2 = 0.87、15 に従って計算)。 赤い影の領域は不確実性を示します。 区間 \(\text{[}-\text{0.37,}-\text{0.03]}\) の距離のハッシュ領域は、不連続部の位置に関する不確実性の増大を表します。

区分的定数関数を当てはめて適用しました。 各グループについて、そのグループの記録値の平均によって定義される POI の一定値を仮定しました。 平均値の標準誤差は、低リスク群では 2.21% (\({\text{距離}}_{\text{t}}<-\text{0.37}\))、高リスク群では 6.77% でした。 - リスク グループ (\({\text{距離}}_{\text{t}}>-\text{0.03}\))。 区間 \(\text{[}-\text{0.37,}-\text{0.03]}\) の距離では、ステップが発生し、観測が利用できなかったため、推定値は生成できませんでした。 不確実性が平均の標準誤差の 3 倍に等しい場合、その年の POI は \({\text{t}}\) のように推定できます。

私たちは、厳密かつ徹底的な方法を適用して、ヒトの PUUV 感染リスクを予測するモデルに最適な気象変数の 3 つの要素を選択しました。 結果として得られた分類モデルは、ほぼ 85% の感度と 70% 以上の精度を備えた高い説明力を備えていました。 私たちの方法は、特定のパフォーマンス基準に関して全体的な最大値を提供しない可能性がありますが、相関性の高い変数が含まれることを回避しており、高い感度と精度が得られます。 変数が 2 つだけの分類器は、より単純で理解しやすいでしょう。 3 番目の変数を追加すると、パフォーマンスはわずかにしか向上しませんが、モデルがより堅牢になり、隠れた変数が発生しにくくなります。 クラスが実際に完全に線形に分離可能であるという兆候はないとしても、次元をさらに増やすことによって、2 つのリスク クラスの分離がより容易になることが期待されます。 実際の年の気象パラメータは、バンクハタネズミの個体数 16,17 と人間の活動 18 の両方、さらにそれらの相互作用に影響を与えるため、報告されている感染症を、世界の変数を使用した予測モデルではカプセル化できない形で推進すると予想されます。前の年。 私たちの分類器は本質的に、ブナの種子生産量とバンクハタネズミの個体数の予測モデルです。 したがって、げっ歯類の管理や植物の保護戦略にも適用できます。

私たちの分析では、気象パラメータとヒトの PUUV 感染との相関関係がすべての地区で同じであり、時間不変である、つまり時間とともに一定であることを前提としています。これにより、各観測値を独立したものとみなすことができます。 さらに基礎となる仮定は、ハンタウイルス感染症の監視と対策の影響は、地区ごとに異なる可能性があるものの、各地区で一定のままであるというものだった。

私たちの手法では、2年前の4月と9月、および前年9月の気象パラメータが感染リスクに強く影響していることが明らかになりました。 さらに、前年 9 月の気象変数は、最適なパフォーマンスを備えたすべての変数ペアに含まれており、前年の 10 月初旬に最も早い予測が行われます。 これにより、対策を準備し、保健当局、リスクグループ、医療従事者のウイルスのリスクについての意識を高めるのに十分な時間が得られるはずです。

2 年前の気象変数は、前年のブナ種子の生産量に関連している可能性が高く、それが食料の入手可能性を決定し、バンクハタネズミの個体数の増加を左右します4,6。 前年の秋に土壌温度が上昇すると、繁殖期の最後の数週間が容易になり、げっ歯類の生存率が高まるため、翌年の初期個体数が増加する可能性があります。

このモデルは PUUV 感染リスクを推定するため、報告されている感染または発生率と比較してプラスの偏りがある可能性があります。 したがって、過大評価 (偽陽性) を受け入れなければならない場合があります。 いくつかの過小評価 (偽陰性) の詳細な検査は、補足注 1 に記載されています。ニーダー ザクセン州とノルトライン ヴェストファーレン州での過小評価の多くは、局地的な流行によるものではなく、むしろ PUUV ベースラインの増加によって引き起こされたと仮説を立てています。これは、報告制度の変更と地元の保健部門の意識の高まりにより、特定の地区で発生したものです。 もう1つの可能性は、他のPUUVクラスターと比較してドイツ北部でPUUVシーズンが早く始まる可能性があることです。 最後に、これらの感染は、隣国オランダからの PUUV 拡散と関連している可能性があります。

発生率の二値化は、ドイツにおける PUUV 発生の空間的同期性を示唆しています。 これは、2019 年の同期性の欠如に関する最近の報告に反対しています 19 が、以前の研究とよく一致しています 11,20。 POI の導入により、発生年の明確な定義が可能になり、メディアやその他の公共コミュニケーションを通じた予測結果の伝達が容易になります。 POI の値が高い場合は、大部分の地区でリスクが増加していることを示します。 この方法は、時間的変動と空間的不均一性を伴うあらゆる人獣共通感染症の発生を記述するために簡単に拡張できます。

私たちの分類モデルは、高リスクの年を検出するための単純な経験則として適用できますが、予測モデルとして厳密に開発されたものではなく、予測モデルとしてはまだ検証されていません。 それをPOIと組み合わせることで、発生年を予測できます。 この方法は、星座を形成する気象パラメータを使用するため、詳細な空間情報は提供されず、広い領域にわたって空間的に均一であると見なすことができます。 それにもかかわらず、このような予測は準備状態を高め、ウイルス検出と人への感染リスクについての意識を高めることができます。 私たちはこの概念を適用して、2022 年のドイツにおける PUUV 感染リスクを推定しました。2022 年の中心クラスターの値 (図 3) は、2006 年から 2021 年の間、またその前の 2002 年から 2005 年の間にも観察されていません。 したがって、今年の発生率の値により、モデルの係数を改良し、不確実性を減らすことができます。 モデルの線形境界から 2022 年の中心クラスターの距離は \(-\text{1.08}\) であるため、世界的な PUUV 感染リスクは低いと予想されます。 式を適用すると、 (5)、POI の予測値は \(\text{7.7\%}\pm \text{6.6\%}\) です。つまり、比較的多数の感染者数が報告される可能性が高いのは約 1 ~ 10 地区だけです2022 年。モデルの線形境界から 2023 年の中心クラスターまでの距離は \(-\text{0.35}\); この値は、式 (1) の不確実性が増大する範囲内に収まります。 (5) また、世界的な PUUV 感染リスクの最終的な推定を可能にするものではありません。 方程式を適用する (3) と (4) を地区レベルでみると、ニーダーザクセン州とノルトライン ヴェストファーレン州の 11 地区が高リスク クラスに属しており、2023 年には比較的多くの感染者数が報告される可能性があります。これが予想される POI につながります。 16.7%。

土地被覆と土地利用のデータはこのモデルには含まれていませんが、バンクハタネズミの PUUV 感染率 21 と人間の PUUV 発生率 17,22 の一般的な予測因子として考えられるものとして以前に報告されています。 我々は、これらの影響が地域ベースの発生率の変換に組み込まれていると考えています。つまり、土地被覆または土地利用は実際にPUUV発生率の局所的な規模を決定する可能性がありますが、アウトブレイクの確率には影響を与えません。

将来的には、このアプローチは、ブナの種子生産量の代用としてブナのマスト強度やブナ開花強度などの時間変化する空間的に不均一な変数を含めることにより、空間情報で補足される可能性があります。 このような変数により、決定境界の反対側にある 2006 年と 2021 年の観測間の分離が大きくなる可能性があります。 この 2 年間は、比較的類似した星座が発生しましたが、発生率の値は明らかに異なりました。 2014 年と 2015 年は、低リスクおよび高リスクのクラスに合理的に適合しないように見える外れ値であり、中リスクの 3 番目のクラスの存在を示唆しています。 ただし、現在利用可能な観察では、そのようなクラスを区別するのに十分ではありません。

Numpy24、Pandas25、Geopandas26、Matplotlib27、Selenium、Beautiful Soup28、SciPy14、scikit-learn29 パッケージを備えた Python23 バージョン 3.8 を使用して、データの取得、処理、分析、視覚化を実行しました。 検証と再現の研究を可能にするために、特定のタスクに使用される関数が明示的に記載されています。

ドイツでは、ハンタウイルス病は 2001 年から届出対象となっています。ロベルト コッホ研究所は、地方および州の公衆衛生局から匿名化されたデータを収集し、研究と情報提供を目的として、SurvStat アプリケーション 2 を介して無料で利用できる限定版のデータベースを提供しています。 私たちは、2006 年から 2021 年までに報告された研究室で確認されたヒト PUUV 感染症 (\({\text{n}}=\text{11,228}\)、ステータス: 2022-02-07) を取得しました。 各ケースで利用可能な属性から、最も細かい時間的および空間的解像度、つまり、通知の週と年、および地区 (英語版 SurvStat インターフェイスでは「郡」という名前) を取得しました。

過小報告によるバイアスを避けるため、2006 年以降、データセットは PUUV 感染に限定されました。2006 年から 2021 年には、2001 年から 2021 年の総症例数の 91.9% が含まれています。ヒトの PUUV 発生率は、次の式により 100,000 人あたりの感染者数として計算されました。 Eurostat30 の人口データを使用。 各年については、その年の 1 月 1 日に報告された人口を使用しました。 2020 年の人口は 2021 年にも使用されました。

分析には、2006 年から 2021 年の期間の総感染者数が \(\ge {20}\) で、年間最大発生率が \(\ge {2}\) であった地区のみを含めました。 SurvStat アプリケーションによって提供される感染に関する空間情報は、感染が報告された地区を指します。 したがって、ほとんどの場合、報告される地域は感染者の居住地に相当し、感染地域とは異なる場合があります。 報告された居住地と感染場所との差異を部分的に補うために、ほとんどの都市地区とその周囲の農村地区を組み合わせました。 基礎的な仮定は、都市部で報告された感染のほとんどは近隣または周囲の農村部で発生したというものでした。 さらに、一部の都市部と農村部には同じ保健局があります。 補足表 1 に、複合地区を示します。

ドイツ気象局 31 から、2004 年から 2021 年までのドイツの次の月次気象パラメーターのグリッドを取得しました。日平均気温 - Tmean、日最低気温 - Tmin、日最高気温 - Tmax (すべての温度は月平均です)対応する日次値 (地上 2 m の高さ、°C); 総降水量(mm) - Pr、総日照時間(時間) - SD、その場所の覆われていない典型的な土壌下の深さ 5 cm の平均月次土壌温度(℃) - ST、草および砂質ロームの下の土壌水分(植物利用可能水のパーセント) - SM 。 Tmean、Tmin、Tmax、Pr、SD のデータセットのバージョンは v1.0 でした。 ST と SM の場​​合、データセットのバージョンは 0. × . 空間解像度は 1 × 1 km2 でした。

データ取得は Selenium パッケージを使用して実行されました。 この処理は、ドイツの地区境界の地理空間ベクトル レイヤーを使用する geopandas パッケージ 26 に基づいています 32。 各グリッドを処理して、各地区にわたるパラメータの平均値を取得しました。 最初に関数 inside を使用して、地区に含まれるグリッドの中心に基づいてマスクを定義しました。 次に、このマスクをグリッドに適用しました。 「中心点ラスタライズ」33 と呼ばれるこの方法では、グリッドの各長方形が、その中心を含む単一の地区に割り当てられました。 典型的な処理誤差は約 1% であると推定され、これは Bregt らによって報告されたラスタライズ誤差と一致しています 33。 この誤差は、計算、補間、観測値の誤りや欠落によって生じるグリッド自体の不確実性よりも大幅に小さい可能性が高いと考えられます。

私たちの分析は、毎週の感染者数を集計することで得られた年間感染者数に基づいて地区レベルで実行されました。 各月の気象パラメータから、過去 2 年間のすべての月について 24 個のレコードを作成しました。 データセット内の各観測値は、1 年間の 1 つの地区を特徴づけました。 その目標は、次のセクションで説明するように、年間発生率を変換することによって取得されました。 各観測値は、気象パラメータ (7 パラメータ × 24 か月) からの 168 の利用可能な予測子すべてで構成されており、以降「変数」と呼ばれます。 変数の命名表記は、Vx_<パラメータ>_<月> の形式に従います。ここで、「Vx」は、それぞれ 1 年前または 2 年前に対応する V1 または V2 です。 は気象パラメータの省略形です (前のサブセクション「気象データ」を参照)。 は月の数値、つまり 1 ~ 12 です。

複合地区の観察では、農村地区のラベルが保持されました。 彼らの感染と人口について、個々の値を集計し、発生率を再計算しました。 気象変数には、各地区の面積で重み付けした平均値を割り当てました。

高い地区相対発生率の発生を促進する効果を検討するために、地区レベルで発生率を離散化しました。 各地区の最大値でスケーリングされた発生率は、最小値と最大値の極端な値を示しました。 すべての観測値の約 49% が [0, 0.1] の範囲内にあり、8% が [0.9, 1] の範囲内にありました (図 5)。 したがって、スケーリングされた発生率を 2 つのビンで離散化する、つまり 2 値化することを特に選択しました。

2006 年から 2021 年までの年間 PUUV 発生率のヒストグラム。選択した各地区の最大値にスケール設定されています。 左: 生の発生率。 右: 式 1 による、対数変換された発生率。 (6)。

まず、式 3 で説明されているように、発生率の値 34 に対数変換を適用しました。 (6)。

正の定数を追加すると、ゼロ発生率の非無限値が確保され、対数発生率が非負になるように 1 が選択され、ゼロ発生率はゼロ対数発生率に変換されました。 この変換は、ゼロ以外の発生値の影響を増大させることを目的としていました。 顕著ではないものの、感染リスクがゼロではないことを示唆する値。 その効果は図 5 の右のプロットに示されており、元のデータの正の歪度が減少します。つまり、低い発生値がより高い値に分散され、結果として、後のビンの高さが [0.05, 0.95] の範囲でより均一になります。変革。 形式的には、この場合、対数変換により、極端ではない発生値のより均一な分布が実現されます。

二値化のために、scikit-learn パッケージの関数 KBinsDiscretizer を適用して、地区ごとに個別に対数変換された発生率の教師なしクラスタリングを実行しました29。 私たちが選択した戦略は、2 つのビンを使用した K 平均法クラスタリングでした。これは、事前定義されたしきい値を必要とせず、それに応じてクラスターの重心を自動的に調整することで、地区ごとに同じ固定数のビンを使用して動作できるためです。

私たちは、選択したターゲットの分類に線形の決定境界をもたらす変数の組み合わせのみに焦点を当てました。 線形カーネルを備えたサポート ベクター マシン (SVM)35 を選択しました。これは、SVM が変数の線形方程式として決定境界を返すという点で、高いパフォーマンスと低いモデルの複雑さを兼ね備えているためです。 さらに、SVM は幾何学的に動機づけられており 36、ロジスティック回帰などの他の機械学習分類アルゴリズムよりも外れ値や過学習が起こりにくいことが期待されています。 完全なモデリング プロセスでは、正則化パラメーター C が 1 (scikit-learn パッケージ 29 の適用される SVC メソッドのデフォルト値) に設定され、両方のリスク クラスの重みも 1 に設定されました。

私たちの目的は、十分なパフォーマンスを備えた分類モデルの変数として、可能な限り少数の気象パラメーターを使用することでした。 最適な変数の組み合わせを特定するために、まず、V2 と V1 の月ごとの気象変数の 2 変数の組み合わせすべて、つまり 168 個の変数 (7 気象パラメーター × 2 年 × 12 か月) に対して線形カーネルを備えた SVM を適用しました。 このステップでのみ変数が最小値と最大値にスケーリングされ、処理時間が大幅に短縮されました。 最終モデルにはスケーリングされていないサポート ベクターが必要だったので、次のすべての手順でスケーラーは省略されました。 一意のペアごとに合計 14,028 個のモデル (\(\frac{168!}{2!\cdot \left(168-2\right)!}\)) から、最高の F1 スコアを持つ 100 個のモデルを保持しました。つまり、感度と精度の調和平均を計算し、変数内の各年と月の組み合わせの出現をカウントしました。 最良の F1 スコアは、ペア (V1_Tmean_9 および V2_Tmax_4) で 0.752 でした。 ペア (V2_Tmax_9 と V1_ST_9) の最高感度は 83% でした。

発生率が 10% を超える年月の組み合わせは、V1_9 (前年の 9 月、発生率 49%)、V2_9 (2 年前の 9 月、発生率 12%)、および V2_4 (2 年前の 4 月、発生率 10%) でした。 %)。 相関性の高い変数を含むセットを避けるために、各年と月の組み合わせからちょ​​うど 1 つの変数を含む 3 変数の組み合わせ (3 倍デカルト積) を形成しました。 合計 343 のモデル (73 の組み合わせ、つまり 3 年と月の組み合わせで 7 つの気象パラメーター) から、最高の感度と少なくとも 70% の精度を持つモデル、つまり変数セット (V2_ST_4、V2_SD_9、および V1_ST_9) を選択しました。 。 この選択の基準は特に重要ではないと考えています。 また、デカルト積の各次元の変数は高度に相関しているため、高い F1 スコアを持つほとんどの変数セットで同等のパフォーマンスが期待されます。 少なくとも 70% の精度と少なくとも 80% の感度を持つ 8 つの変数セットを補足表 2 に示します。

SVM 分類子には、正則化パラメーター C とクラスの重みという 2 つのハイパーパラメーターがあります。 C を減らすと、決定境界がより柔らかくなり、より多くの誤分類が許容されます。 一方、高リスククラスの重みを増やすと、高リスク観測の誤分類に対するペナルティが大きくなり、感度が向上し、精度が低下すると予想されます。 両方のハイパーパラメータを同時に調整することで、結果として得られるモデルが優先メトリックに関して最適なパフォーマンスを持つことが保証されます。 ただし、過学習を避けるために、これら 2 つのハイパーパラメーターを使用したさらなるモデルの最適化を冗長に検討しました。 完全を期すために、ハイパーパラメーターのさまざまな値について SVM モデルを調べたところ、F1 スコアのグローバル最大値が C では 0.001、高リスク クラスの重みでは 1.5 の範囲にあることがわかりました。 選択した値 C = 1 および 1 に等しい高リスク クラスの重みにより、2 番目に優れた F1 スコアが得られます。これは、[0.2、5.5] の範囲からの C の選択の影響をほとんど受けず、同等のパフォーマンスを持つ局所最大値です。

V1_6 (前年の 6 月) から 4 番目の変数を追加した結果、感度は高くなりますが、精度と特異度は低くなります (V1_Pr_6 の場合)。 最高の F1 スコアは 4 回転 (V2_ST_4、V2_SD_9、V1_ST_9、V1_Pr_6) で達成されました。 パフォーマンスが大幅に改善されずに複雑さが増大したため、変数トリプレットをさらに拡張する必要はないと考えました。

この研究の結果を裏付けるデータは、合理的な要求に応じて責任著者から入手できます。

使用したソフトウェアとパッケージに関する情報は本文に記載されています。 この研究の結果を裏付けるコードは、合理的な要求に応じて責任著者から入手できます。 この文書には補足情報が用意されています。

Krüger, DH、Schonrich, G. & Klempa, B. ヒト病原性ハンタウイルスと感染予防。 ハム。 ワクチン。 7、685–693 (2011)。

記事 PubMed PubMed Central Google Scholar

ロベルト・コッホ研究所。 SurvStat@RKI 2.0、https://survstat.rki.de。 (締切:2022-02-07)。

Tersago, K. et al. ベルギーにおけるハンタウイルス病(流行性腎症):樹木の種子生産と気候の影響。 エピデミオール。 感染する。 137、250–256 (2009)。

論文 CAS PubMed Google Scholar

クレメント、J.ら。 ハンタウイルス発生率の増加と気候変動の関係: マストの関係。 内部。 J. Health Geogr. 8、1 (2009)。

記事 PubMed PubMed Central Google Scholar

Reil、D. et al. 2015 年にドイツでハンタウイルスの発生が促進された環境条件? 人獣共通感染症公衆衛生学 63、83–88 (2016)。

論文 CAS PubMed Google Scholar

Reil、D. et al. ドイツのハンタウイルス: 病原体、保有源、分布および予測モデルに関する現在の調査結果。 ベルル。 ムンク。 獣医週刊ニュースレター 131、453–464 (2018)。

Google スカラー

Imholt, C. et al. バンクハタネズミ (Myodes glareolus) の発生パターンに対する気候の過去および将来の影響を定量化します。 害虫管理。 科学。 71、166–172 (2015)。

論文 CAS PubMed Google Scholar

ハリル、H.ら。 げっ歯類集団におけるハンタウイルス蔓延の動態と要因。 ベクター媒介人獣共通感染症。 14、537–551 (2014)。

論文 PubMed Google Scholar

Reil、D. et al. バンクハタネズミ集団におけるプウマラ ハンタウイルス感染: 中央ヨーロッパにおける宿主とウイルスの動態。 BMCエコール。 17、9 (2017)。

記事 PubMed PubMed Central Google Scholar

ドリューズ、S.ら。 ドイツ北部および東部では宿主に関連したヒトプーマラウイルス感染症はみられない。 出現。 感染する。 ディス。 23、83–86 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

エッティンガー、J.ら。 プウマラ ウイルスの複数の同時発生、ドイツ、2010 年。 感染する。 ディス。 18、1461–1464 (2012)。

記事 PubMed PubMed Central Google Scholar

フェイバー、M.ら。 ヒトのプーマラおよびドブラバ・ベオグラード・ハンタウイルス感染症の分子的および疫学的特徴、ドイツ、2001 年から 2017 年。ユーロ調査。 24、1800675 (2019)。

記事 PubMed PubMed Central Google Scholar

Hofmann, J.、Loyen, M.、Faber, M. & Krüger, DH ハンタウイルス疾患: 最新情報。 ドイツ人医療週間 147、312–318 (2022)。

論文 CAS PubMed Google Scholar

Virtanen、P. et al. SciPy 1.0: Python での科学技術コンピューティングの基本的なアルゴリズム。 ナット。 方法 17、261–272 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Schabenberger, O. & Pierce, FJ 『植物と土壌科学のための現代統計モデル』 (CRC Press、2002)。

数学 Google Scholar

ギュブラー、DJ 他米国における気候の変動と変化: 媒介動物および齧歯動物が媒介する病気への潜在的な影響。 環境。 健康の観点。 109、223–233 (2001)。

PubMed PubMed Central Google Scholar

Vanwambeke, SO et al. げっ歯類、げっ歯類感染症、およびヒト疾患に関する異種データを通じた人獣共通感染症オルトハンタウイルス疾患の空間動態。 科学。 議員第 9 号、2329 (2019)。

論文 ADS PubMed PubMed Central Google Scholar

Piechotowski、I. et al. 南ドイツにおけるハンタウイルスの出現: げっ歯類、気候、およびヒトへの感染。 パラシトール。 解像度 103(補足 1)、131–137 (2008)。

記事 Google Scholar

バインダー、F.ら。 2019年夏のドイツの流行地域における異種プーマラオルトハンタウイルスの状況。トランスバウンド新興。 ディス。 67、502–509 (2020)。

論文 PubMed Google Scholar

Cunze, S. et al. ドイツにおけるヒトプーマラウイルス(PUUV)感染の空間的および時間的パターン。 PeerJ 6、e4255 (2018)。

記事 PubMed PubMed Central Google Scholar

ハリル、H.ら。 微小生息地の特性による人獣共通感染症の危険性の空間予測と検証: プーマラ ハンタウイルスの穴はどこにあるのか? BMC感染。 ディス。 17、523 (2017)。

記事 PubMed PubMed Central Google Scholar

ヘイマン、P.、トーマ、BR、マリー、JL、コシェス、C.、エスバウアー、SS ハンタウイルスの流行を引き起こす要因の探索中。 フロント。 生理。 3、237 (2012)。

記事 PubMed PubMed Central Google Scholar

Van Rossum, G. & Drake, FL Python 3 リファレンス マニュアル。 (クリエイトスペース、2009)。

ハリス、CR 他。 NumPy を使用した配列プログラミング。 ネイチャー 585、357–362 (2020)。

論文 ADS CAS PubMed PubMed Central Google Scholar

McKinney, W. Python での統計コンピューティングのデータ構造。 第 9 回 Python in Science Conference の議事録、Vol. 445、56–61 (2010)。

Jordahl, K. GeoPandas: 地理データ用の Python ツール。 https://github.com/geopaths/geopaths (2014)。

Hunter、JD Matplotlib: 2D グラフィックス環境。 計算します。 科学。 工学 9、90–95 (2007)。

記事 Google Scholar

リチャードソン、L. 美しいスープのドキュメント。 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (2007)。

ペドレゴサ、F.ら。 Scikit-learn: Python での機械学習。 J.マッハ。 学ぶ。 解像度 12、2825–2830 (2011)。

MathSciNet MATH Google Scholar

Eurostat (欧州連合統計局)。 人口変動 - 地域レベルの人口動態バランスと原油金利 (NUTS 3)、オンライン データベース。 https://ec.europa.eu/eurostat/databrowser/view/demo_r_gind3/default/table。 (データ最終更新日:2021-03-12 23:00、取得日:2021-03-15)。

DWD 気候データ センター (CDC)。 https://opendata.dwd.de/。 (最終取得日: 2022-01-05)。

エスリ・ドイチュランド。 「クライスグレンツェン 2017」、連邦地図測地局 (BKG) による。 https://opendata-esri-de.opendata.arcgis.com/datasets/affd8ace4c204981b5d32070f9547eb9_0。 (最終更新日: 2020 年 3 月 17 日、取得日: 2021 年 3 月 15 日)、ドイツのデータライセンスに従って使用 - 帰属 - http://www.govdata.de/dl-de/by- で入手可能なバージョン 2.0 2-0。

Bregt, AK、Denneboom, J.、Gesink, HJ & Van Randen, Y. オランダの土壌マップを使用したケーススタディによるラスター化エラーの決定。 内部。 J.Geogr. 情報システム。 5、361–367 (1991)。

記事 Google Scholar

Esther, A.、Imholt, C.、Perner, J.、Schumacher, J. & Jacob, J. 回帰木分析によって特定された気象条件とハタネズミ (Microtus arvalis) 密度の間の相関関係。 基本的なアプリケーションエコル。 15、75–84 (2014)。

記事 Google Scholar

Cortes, C. & Vapnik, V. サポートベクター ネットワーク。 マッハ。 学ぶ。 20、273–297 (1995)。

記事 MATH Google Scholar

Bennett, K. & Bredensteiner, E. SVM 分類器における双対性と幾何学。 第 17 回機械学習国際会議議事録、57 ~ 64 (2000)。

リファレンスをダウンロードする

著者らは、Christian Imholt による議論とアドバイスに感謝の意を表します。 また、技術的支援をいただいた Paul Beilmann 氏と Johannes Kauffmann 氏、および原稿に関するコメントをいただいた Anke Geduhn 氏に感謝いたします。 この研究はドイツ環境庁から委託され、部門研究計画(​​研究コード 3720 48 401 0)の範囲内で連邦環境・自然保護・核安全省から資金提供を受けて行われた。

Projekt DEAL によって実現および組織されたオープンアクセスの資金調達。

Julius Kühn Institute (JKI) – 連邦栽培植物研究センター、園芸および森林植物保護研究所 / 疫学および病原体診断研究所、げっ歯類研究、Toppheideweg 88、48161、ミュンスター、ドイツ

オレスティス・カザシディス & イェンス・ジェイコブ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

OKとJJがこの研究を発案した。 OK は理論を展開し、分析を実行し、原稿を書きました。 OKとJJは原稿を修正し、編集しました。 JJは資金を確保した。

オレスティス・カザシディスへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Kazasidis, O.、Jacob, J. 機械学習は、ヒトのプーマラ ハンタウイルスの発生に対する直接的な早期警告ルールを特定します。 Sci Rep 13、3585 (2023)。 https://doi.org/10.1038/s41598-023-30596-x

引用をダウンロード

受信日: 2022 年 7 月 15 日

受理日: 2023 年 2 月 27 日

公開日: 2023 年 3 月 3 日

DOI: https://doi.org/10.1038/s41598-023-30596-x

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

共有