数据分析中与常识相悖的例子

时间:2023-04-17 06:26:12 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
数据分析中与常识相悖的例子

在现实生活中,我们常常会遇到这样一种现象,当尝试研究两个变量是否具有相关性的时候,会分别对此进行分组研究。

然而,在分组比较中都显示非常有优势的一方,在总评时却成了失势的一方。直到 1951 年,英国统计学家 E.H.辛普森发表论文对此现象做了描述解释,后来人们就以他的名字命名该现象,即辛普森悖论。

思考下,辛普森悖论为什么成立? 辛普森悖论的原理

下面给出辛普森悖论的数学原理:



数学表达式上,我们可以看出,对 abcd 四个变量,分成 1 组和 2 组,在 1 组比率占优势的情况下,总体占优势却不成立。

看一个例子:抖音 6 月与 7 月活跃人群得活跃时长对比,发现男性活跃时长上升,女性也上升,但是整体上 7 月活跃时长比 6 月降低是什么原因?

数学表达式上,我们可以看出,对 abcd 四个变量,分成 1 组和 2 组,在 1 组比率占优势的情况下,总体占优势却不成立。

看一个例子:抖音 6 月与 7 月活跃人群得活跃时长对比,发现男性活跃时长上升,女性也上升,但是整体上 7 月活跃时长比 6 月降低是什么原因?




为了让结果更直观,我做了一个数据图,不是很标准,但是足以解释。 假设 6 月,活跃男生占比 20%使用平均时长 1.2h活跃女生占比 80%使用平均时长 1.5h则可以计算 6 月整体使用时长为 1.44h同理,假设 7 月,活跃男生占比 60%,使用平均时长 1.3h;活跃女生占比 40%,使用平均时长 1.6h,则可以计算 7 月整体使用时长为 1.42h

这样就可以非常清晰地看出,7 月比 6 月男女生的平均观看时长确实增加了,但是整体的反而降低,问题出现在活跃男女生的比例上。

所以,上述抖音案例的解释,应该是 6 月活跃人群女性占比较大,而七月男生占比较大,虽然 7 月男女生观看时长都增长了,但是由于一天 24 小时,除掉工作吃饭睡觉时间,男女生活跃时长的提升幅度并不是很大,这样就导致,虽然 7 月男女生活跃观看时长都有提升,但是整体 7 月的活跃时长低于 6 月,本质还是活跃人群结构男女比例发生变化。

所以在运营的时候,在活跃时长增长幅度有限的条件下,如果想增加整体的时长,先保证人群结构中女生占较大比例,再引导男女行增长活跃时长。

如何避免出现辛普森悖论

关于如何避免出现辛普森悖论,我个人觉得,辛普森悖论无法完全避免的,很多问题,完全依靠统计学推导因果关系无法实现。就拿生产环境数据来说,然我们做了各种画像,但是其他分类方式依然存在,理论上的潜在变量会无穷无尽。

我们能做的,就是仔细认真地研究各种影响因素,不要笼统概括地看问题,


本文来源:https://www.wddqw.com/doc/4f9355f33286bceb19e8b8f67c1cfad6195fe92d.html