Table of Contents

Lucas Wu

标准差

标准差(σ)是用来衡量一组数据“分散程度”的指标,标准差越大,说明数据之间的差距越大,也就是离平均值越大。标准差越小,说明数据相对比较“集中”。

标准差也可以看见数据内部是否比较稳定不分散,典型的问题是人均收入,通过标准差可以查看数据内部是否有较大分散导致的不合理(被平均)。

比如给定5个人收入数据,如果只是看平均值,那么每个人的人均收入在10400元,对于A、B、C是被平均的。

人员 薪酬
A 2000
B 3000
C 7000
D 15000
E 25000

计算步骤

通过标准差的计算,可以通过均数和标准差两个值来观察数据是否合理,标准差步骤按照如下阶段分段进行。

1. 计算数据组的平均值(μ)

为什么要算平均值,平均值就像“整体水平”的代表,用它来衡量每个人的收入是比平均低还是比平均高,所以这个步骤计算出来,为后续衡量差距做准备。 $$ \mu = (2000 + 3000 + 7000 + 15000 + 25000) / 5 = 10,400 $$

2. 计算数值与平均数差值

计算数值与平均数差值这个步骤的目的是计算到底哪些是低于还是高于平均值的,正数是高于,负数是低于。

$$ 2000 - 10400  = -8,400 \newline 3000 - 10400  = -7,400 \newline 7000 - 10400  = -3,400 \newline 15000 - 10400  = 4,600 \newline 25000 - 10400  = 14,600 $$

3. 计算差数的平方

由于计算差值后,会产生正数和负数,会导致相加的时候导致正负抵消,同时差值越大,平方后也就越大,能更好的凸显离均值很远的“极端”数据。

$$ (-8400)^2  = 70,560,000 \newline (-7400)^2  = 54,760,000 \newline (-3400)^2  = 11,560,000 \newline (4600)^2  = 21,160,000 \newline (14600)^2  = 213,160,000 $$

4. 求平方差的平均值(方差)

这里做的意义是现在得到了每个数值离平均数差值后,然后通平方解决了正负抵消和凸显偏差大的点后,此时计算这些平方差的平均值,就能够得到一个代表“整体分散”的指标,就需要把这些“差值平方”汇总成一个均值,也就得到了方差。

$$ (70560000 + 54760000 + 11560000 + 21160000 + 213160000) / 5  = 74,240,000 $$

当然如果是计算样本方差,则需要使用n-1作为除数,这是因为这样得到的方差会系统性地低估真正的方差,这n-1则可以让这个估计量在数学意义上变得“期望值等于真实方差”,也就是统计里面的“无偏”。

比如期望值假设你想测量“全校学生身高”这个总体,但你只抽了 5 个同学来测量作为样本,样本中的平均值不一定等于真实的全校平均值(有时差一点),如果你直接用这 5 个同学的均值来计算方差并除以 5,你往往会得到一个比真正的“全校方差”更小的值。因为在只抽到的这 5 个人内部,他们比较容易“彼此相似”些——或者说,你用“样本均值”来计算差,已经把样本内部的某些变动抹平了,所以,用 (n-1) = 4 来做分母,略微增大了样本方差,使得我们对“全体学生方差”的估计更合理、更准确。

5. 方差开平方,得到标准差

这个步骤的意义是将第3步的平方还原,主要是因为第三步计算后,相当于是收入与均数差值的平方,和原始数据的收入采用的单位是不一样的,所以这一步骤也是将平方还原,才能拿来理解。 $$ \sqrt{74240000}  = 8,616.264 $$

解读

标准差给出的值并不代表所有的人离平均值10400差8616左右,标准差是一个概括性指标,越大说明整体差距越大,越小说明大多数人比比较接近平均收,比如在大部分情况下,没有太多数据的,而大概可能只知道人均、人数以及标准差,那么这个8616和平均数10400基本上是一个数量级的,说明这个整体空间或者样本空间内部的数据非常分散,也就是人均收入非常离散。

(完)