方差的统计学意义 总之,语言描述:方差是观察样本的离散程度。 举个例子:样本a是10、10、10、10、10;样本b是-10、0、10、20、30。a和b的均值都是10,但显然b的样本点离散程度更大一些。 如何来用统计量描述这种离散程度呢?很直观可以想到:那就把每一个样本点与均值点的“距离”统计在一起看一看就清楚了。 最先想到的距离就是直接做差(暂时仅讨论一维情况),但会有正负号相抵消的问题——试想上边样本a和b,每个样本点与均值做差并对差值求和后都是0,并无法区分分散程度。 鉴于此,很直接想到一个改良版本,即对差的绝对值求和,即统计量“平均差”。但平均差仍有一些问题,最关键的是没有过于偏离的点以足够多的“关注”。举例子:给定样本c为-20、10、10、10、40。将样本c与样本b比较,二者均值相等、平均差相等,但直观感受上来讲,样本c离散更严重些(想像成分数的话就是c的发挥更加不稳定),因为有两个明显“跑到远处去”的点。所以为了给明显跑偏的点以更大的“关注”,就使用二次函数加大这个惩罚值,于是方差便诞生了。当然,为了与样本点及其均值在量纲上可比,通常会再开方得到标准差。 此外,方差还有一些额外的优点,比如二次函数可以自然地解决符号偏移的问题,可以在高维数据中计算距离,计算方便。另外,从统计学上讲,可以证明最小化方差可以找到概率最大的无偏估计。综上所述,方差已经成为描述样本离散程度最常用的统计量。 本文来源:https://www.wddqw.com/doc/9cbffabdfbc75fbfc77da26925c52cc58bd690a6.html