コビット数のデータマイニング

ストーリータイトル画像

今日はコビドのデータを見ていると、間違いなく混乱があるようなので、少しだけ突っ込んでみたいと思います。

私がこのプロジェクトを始めた主な理由は、ロックダウン対策が「R値」と結びついていて、一般のメディアでは科学者が「R値は推定するしかない」と言っていたからです--私にとっては信じられないことです。では、何が出てくるか見てみましょう。

どのようなデータがあるのでしょうか?

私は、私が取るつもりです。ジョンズ・ホプキンス大学のデータ彼らはこれまでのところ、より正確で高速なデータを持っているように見えるので。私たちが持っている値の中で最も重要なのは、感染者の総数と現在感染している人の数の2つです。この2つのメトリクスから、すべてを生成します。

写真は、完全に感染していると現在感染している人々のチャットを示しています。

まだまだだが、そこから簡単なものを探してみよう。

データの準備

画像は、いくつかの番号を持つExcelのテーブルを示しています

まずは、作業しやすいものが必要です。そのためには、Excelを使うことにしています。Pythonを使って何かをプログラミングすることもできますが、短いプロジェクトの場合は大変かもしれません。

持っているデータは、上記のように2つの列に挿入されています。各行はパンデミックの一日を表しています。スイスでは2月25日にパンデミックが始まった。

毎日の新しい感染症

役に立ちそうな値としては、新たな感染症があります。ジョンズ・ホプキンス大学では収集せず、全感染から抽出します。これで将来的にはコピーの手間が省けます。

現在の感染症から前日の総感染症を差し引けばいいだけです。

画像は1日あたりの新しい感染症と5dの中央値を示しています。

ここ数日で感染症が少しずつ増えてきていますが、詳しくは後ほど。

総治癒数と平均感染期間

完治したものは、現在感染している感染症を差し引いた総感染症を計算して取ることができます。説明のために、総感染者数とグラフを対比させてみました。

グラフは感染した人と治った人の合計を示しています。両方の曲線は、水平方向のオフセットを除いて類似しています。

病院が満員には程遠いということを除けば、まだそれほどのことではないかもしれません。さらに、これから感染時間を読み取ることができます。治った合計を左にずらすことで、重なった場合の感染時間を求めることができるはずです。スイスは16日、ドイツは15日です。これは測定範囲内のようです。

感染者数と治癒者数の合計を表にしたものです。この時間が重なるように日数分シフトされた

感染時間は、後にR値に有用であることが証明されます。

1日で治る

奇妙な発見のスクリーンショット

癒されたトータルから、毎日の癒されを生成することができます。毎日の新しい感染症と同様に、昨日のトータルヒーリングから今日のトータルヒーリングを引き算しています。

ここで、ジョン・ホプキンス大学のこのデータの収集方法に疑問符がつきました。どうやら5月16日以降、治癒例が100件単位で報告されているようですが、私には非常に奇妙に思えます。

残念ながら、数値が正しいと仮定して、中央値ではなく、精度の低い平均値を使わざるを得ないでしょう。中央値は外れ値を効果的に除去するので、より信頼性が高いと思います。しかし、ここでのデータは外れ値で構成されているので、平均値を使用しなければなりません。

感染者数と治癒者数の合計を表にしたものです。この時間が重なるように日数分シフトされた

さらに、毎日の治癒した患者と毎日の感染した患者を重ね合わせることができるようになりました。

グラフは毎日治癒した患者と新たに感染した患者を示しています。治癒した患者は明らかに感染したものに遅れをとっています。

ここではっきりとわかるのは、回復した患者は~4月1日の時点で一貫して新規感染者を上回っていたということです。これは、基本的にはその日から病院の仕事が減っていたということになります。

神秘的なR値と未来

R値を得るためには、まずR値の定義を知る必要があります。その定義は以下のようになっています。

"のような想定数の母集団で直接発生した症例のうち、すべての個体が弱い"ワイン感染症のために"

どうやって行くの?

我々はすでに最も重要な情報を持っています。

- 感染症は平均してどのくらい続くのでしょうか?十六日

- 現在の感染者数は?

- 1日あたりの新しい感染症の数は?

そして、日次のR値は、次のように計算することができます。

(新規感染*感染期間)÷現在の感染者数

スイスの結果です。

R値のグラフ

さらに、物事が悪くなっているのか、良くなっているのかを浮き彫りにするために、私は独自のメトリックを作成しました。読むよりも緑が多いということは、物事が良くなっているということです。緑よりも赤が多いということは、事態が悪化しているということです。

数値が高いほど、または低いほど効果が強くなります。

グラフは、私が個人的にr値よりも有用だと感じた指標を示しています。

第二の波が来るぞ!

でも、今のところはゆっくりと。ロバート・コッホの推定R値を背景に、まずドイツからもこの2つのメトリクスにアクセスしてみましょう。

r値 ドイツ 感染症開発 ドイツ

ドイツも似たような曲線を描いています。上昇しているR値が少し上がっただけです。あと、感染イベントは最後に狂ったように飛び跳ねる。

なぜなんでしょうか?ピーク直前の6月15日前後のデータを見てみましょう。

スイスでは、合計292件のアクティブな症例があり、1日あたり15件の新規症例が発生しています。実際には、ホットスポット一つですでにその数値が劇的に覆されてしまうほど少ないのです。したがって、1回の短いスパイクだけでは、第2の波が来ることを予測するには十分ではありません。

疑う人もいるかもしれませんが、ウイルスは永遠に来ては消えません。例えば、最近、豚インフルエンザの症例が再検出されています。

ウイルスを完全に根絶できるかどうかは疑問ですが(現在試みているところですが)。むしろ、人間が生きていかなければならないものへと進化していくのです。近いうちにホットスポットがあるでしょう。

とはいえ、1stと似たような2ndウェーブの新作はすぐには出てこないだろうと思っています。来年の1月2月に何が起こるかは、時間が経てばわかることです。