Covid数字的数据挖掘

故事标题图片

今天我想对科维德的数据进行一下了解,因为我看到肯定有一些困惑。

我之所以启动这个项目,主要是想说锁定措施与 "R值 "挂钩,而公众媒体上的科学家说R值只能估计--我觉得不可思议。所以,让我们看看能发现什么。

我们到底掌握了什么数据?

我要去数据来自约翰霍普金斯大学因为到目前为止,他们的数据似乎更加准确和快速。我们最重要的两个数值是感染者总数和目前感染者人数。从这两个指标我们将产生一切。

图为完全感染者和当前感染者的聊天记录。

看起来还不多--但让我们找到一些简单的东西从那里拉出来。

数据的准备

图片显示excel表格与一些数字

首先,我们需要一些我们可以轻松工作的东西。为此,我将使用Excel,因为它既快又简单。用Python编程的东西也可以,但对于一个短项目来说,可能太费劲了。

如上图所示,我们的数据被插入到两列中。每一行都代表着大流行中的一天。2月25日,瑞士开始出现疫情。

每日新增感染病例

一个可能有用的价值是新的感染。我不会在约翰霍普金斯大学收集这些数据,但会从总的感染中提取。这样可以节省以后的复印时间。

我们只需要将前一天的总感染量减去当天的感染量就可以了。

图片显示了每天的新感染病例和5d中位数。

我们可以看到的是,最近几天感染率小幅上升,但稍后会有更多报道。

治愈总数和平均感染时间

完全治愈可以通过计算感染总数减去当前感染者来取。为了说明问题,我把这张图和感染者总数进行对比。

图中显示的是感染总数和治愈总数。两条曲线看起来都很相似,除了水平偏移之外

嗯,这可能还不能说明什么,只能说明我们的医院还远远没有满员。此外,我们还可以从中读取感染时间。通过将固化的总量向左移动,我们应该得到感染时间,如果它们重叠。瑞士是16天,德国是15天。这似乎是在测量范围内。

图中显示的是感染总人数和治愈总人数。这个时间按天数移动,使它们重叠在一起

感染时间将在以后被证明对R值有用。

每天的治疗量

奇怪的发现截图

从总痊愈量中,我们可以生成每日痊愈量。类似于每天的新感染,我们从今天的总疗程中减去昨天的总疗程。

这就是我对约翰-霍普金斯大学收集这些数据的方法产生了一些疑问。很显然,从5月16日开始,治愈的病例已经分批上报了100例,我觉得很奇怪。

不幸的是,我们必须假设数值是正确的,但我将不得不使用不太准确的平均值而不是中位数。我觉得中位数更可靠,因为它能有效地去除异常值。但由于我们这里的数据由离群值组成,所以我们必须使用平均值。

图中显示的是感染总人数和治愈总人数。这个时间按天数移动,使它们重叠在一起

此外,我们现在还可以叠加每天的治愈患者和每天的感染患者。

图中显示的是每天的治愈与新感染者的对比。

我们在这里可以清楚地看到的是,截至~4月1日,康复患者始终比新感染者多。这基本上意味着,从那天开始,医院的工作越来越少。

神秘的R值与未来

要想获得R值,必须先知道R值的定义。其定义如下:

"The预期数在一个所有个体都是的人口中,由一个案件直接产生的案件的比例。脆弱为葡萄酒感染。"

我们怎么去那里?

我们已经掌握了最重要的信息。

- 感染平均会持续多长时间?16天

- 目前有多少感染者?

- 每天有多少新的感染者?

然后,每天的R值可以计算如下:

(新感染病例*感染持续时间)/目前的感染者人数。

这是瑞士的结果。

R值图

此外,我还创建了自己的衡量标准,以突出情况是在变坏还是在变好。绿比读多,说明情况越来越好。红的比绿的多,说明情况越来越糟。

值越高或越低,效果越强烈。

图中显示了一个我个人认为比r值更有用的指标

嗯哦--第二波将会来临!

但现在慢慢地。我们先把德国的这两个指标也接入进来,背景是Robert Koch的Guesstimated R-Value。

r值 德国 德国的感染发展

德国也有类似的曲线。上升的R值只是有一个小小的凸起。另外,感染事件在最后疯狂地跳来跳去。

为什么会这样?我们来看一下6月15日左右的数据,也就是高峰期之前的数据。

我们在瑞士共有292个有效案例,每天有15个新案例。其实,这个数字太小了,一个热点就已经会大幅颠覆数值。因此,单一的短线暴涨不足以预测第二波行情的到来。

正如一些人可能怀疑的那样,病毒不会永远来了就消失。例如,最近又发现了猪流感病例。

我怀疑我们能否彻底根除病毒(我们目前正在努力)。而是会演变成我们人类不得不接受的东西。在不久的将来会有热点。

不过,我不希望很快看到类似于第一波的新的第二波。明年1月/2月会发生什么,只有时间才能证明。