数据分析中与常识相悖的例子 在现实生活中,我们常常会遇到这样一种现象,当尝试研究两个变量是否具有相关性的时候,会分别对此进行分组研究。 然而,在分组比较中都显示非常有优势的一方,在总评时却成了失势的一方。直到 1951 年,英国统计学家 E.H.辛普森发表论文对此现象做了描述解释,后来人们就以他的名字命名该现象,即辛普森悖论。 思考下,辛普森悖论为什么成立? 辛普森悖论的原理 下面给出辛普森悖论的数学原理: 从数学表达式上,我们可以看出,对 a、b、c、d 四个变量,分成 1 组和 2 组,在 1 组比率占优势的情况下,总体占优势却不成立。 看一个例子:抖音 6 月与 7 月活跃人群得活跃时长对比,发现男性活跃时长上升,女性也上升,但是整体上 7 月活跃时长比 6 月降低是什么原因? 从数学表达式上,我们可以看出,对 a、b、c、d 四个变量,分成 1 组和 2 组,在 1 组比率占优势的情况下,总体占优势却不成立。 看一个例子:抖音 6 月与 7 月活跃人群得活跃时长对比,发现男性活跃时长上升,女性也上升,但是整体上 7 月活跃时长比 6 月降低是什么原因? 为了让结果更直观,我做了一个数据图,不是很标准,但是足以解释。 假设 6 月,活跃男生占比 20%,使用平均时长 1.2h;活跃女生占比 80%,使用平均时长 1.5h,则可以计算 6 月整体使用时长为 1.44h。同理,假设 7 月,活跃男生占比 60%,使用平均时长 1.3h;活跃女生占比 40%,使用平均时长 1.6h,则可以计算 7 月整体使用时长为 1.42h。 这样就可以非常清晰地看出,7 月比 6 月男女生的平均观看时长确实增加了,但是整体的反而降低,问题出现在活跃男女生的比例上。 所以,上述抖音案例的解释,应该是 6 月活跃人群女性占比较大,而七月男生占比较大,虽然 7 月男女生观看时长都增长了,但是由于一天 24 小时,除掉工作吃饭睡觉时间,男女生活跃时长的提升幅度并不是很大,这样就导致,虽然 7 月男女生活跃观看时长都有提升,但是整体 7 月的活跃时长低于 6 月,本质还是活跃人群结构男女比例发生变化。 所以在运营的时候,在活跃时长增长幅度有限的条件下,如果想增加整体的时长,先保证人群结构中女生占较大比例,再引导男女行增长活跃时长。 如何避免出现辛普森悖论 关于如何避免出现辛普森悖论,我个人觉得,辛普森悖论无法完全避免的,很多问题,完全依靠统计学推导因果关系无法实现。就拿生产环境数据来说,虽然我们做了各种画像,但是其他分类方式依然存在,理论上的潜在变量会无穷无尽。 我们能做的,就是仔细认真地研究各种影响因素,不要笼统概括地看问题, 本文来源:https://www.wddqw.com/doc/4f9355f33286bceb19e8b8f67c1cfad6195fe92d.html