STATISTICS BASICS · 入门

平均数不够用：为什么还要看中位数和标准差

同一个平均值，可能藏着完全不同的现实。想真正看懂一组数据，你至少需要知道两个问题：中心在哪里，以及数据散得有多开。

先做个小测验

假设有一间很小的公司，一共 10 个人。其中 9 个普通员工，每月工资 5000 元；还有 1 个老板，每月给自己开 50 万。

现在有人问你：

“这家公司平均工资多少？”

我们算一下：

(5000 × 9 + 500000) ÷ 10 = 54500

于是这家公司可以骄傲地宣布：

我们员工平均月薪 5 万 4。

但你品一品——这家公司真的有人挣 5 万 4 吗？

没有。

9 个人挣 5000，1 个人挣 50 万。没有任何一个人的工资，接近这个“平均数”。

这就是今天我们要聊的第一件事：

平均数很有用，但它不是永远可靠。

平均数被极端值拉偏示意图 — 图 1：平均数会被极端值拉偏。少数特别大的数，可能把整体平均值拉到远离大多数人的位置。

平均数：最熟悉，也最容易被误用

平均数，也叫 Mean。我们从小学就会算：

把所有数加起来，再除以个数。

它太常见了，常见到我们几乎忘了问一句：

它到底在描述什么？

你可以把平均数想象成一组数据的“重心”。如果每个数据都是跷跷板上的一个小球，平均数就是让跷跷板保持平衡的那个支点。

大多数时候，平均数很好用。

比如一个班的考试成绩，大家都在 60 到 95 分之间，没有特别离谱的分数。这时候说“平均分 78”，通常可以大致代表整体水平。

但问题出在哪儿？

出在那个老板的 50 万上。

平均数有一个明显弱点：

它对极端值特别敏感。

只要有一个数据特别大，或者特别小，它就能把整个平均数拉过去，拉到一个和大多数人都不太接近的位置。

这就是为什么工资、房价、财富、城市收入这类数据里， “平均值”经常会让普通人感觉不真实。

不是因为平均数算错了，而是因为：

平均数描述的是数学重心，不一定描述大多数人的真实处境。

中位数：那个更老实的家伙

那遇到这种情况怎么办？

统计学里还有另一个非常重要的中心指标：

中位数 Median。

中位数的算法特别朴素：

把所有数从小到大排好队，站在最中间的那个数，就是中位数。

我们回到那家公司。

10 个人的工资从小到大排，是这样：

5000, 5000, 5000, 5000, 5000, 5000, 5000, 5000, 5000, 500000

10 个数，最中间是第 5 和第 6 个。它们都是 5000，所以中位数还是 5000。

中位数 = 5000 元。

你看，这个数字是不是诚实多了？

它告诉你：这家公司里，一个普通员工，大概就是这个水平。

平均数与中位数对比图 — 图 2：同一组数据，平均数和中位数可能讲出两个不同角度的故事。

中位数最大的优点是：

它不容易被极端值带偏。

那个老板就算给自己开 500 万、5000 万，只要其他 9 个人还是 5000，中位数依然基本不动。

因为中位数只关心“排在中间的是谁”，不关心最两端的数字到底有多夸张。

什么时候应该看中位数？

这里给一个很实用的判断方法。

如果一组数据比较均匀，没有特别离谱的极端值，平均数通常很好用。

比如：

一次普通考试的班级成绩
一群年龄相近学生的身高
一周每天的正常气温

这些数据大多不会出现一个值比其他值大几十倍、几百倍。这时候平均数通常能代表整体情况。

但如果数据里很可能存在极端值，或者分布非常不均匀，你就应该主动看中位数。

比如：

工资收入
房价
财富分布
城市人口规模
视频播放量
社交媒体粉丝数

这些数据经常会出现少数特别大的值。一个顶级主播、一个超级富豪、一套天价豪宅，都可能把平均数拉得很远。

所以下次再看到“某地平均工资 1 万 5”这种说法，你可以多问一句：

那中位数是多少？

这句话往往比直接相信平均数更接近真实生活。

等等，光知道“中间在哪”还不够

到这里，我们已经能找到一组数据的中心了。

这个中心可以是平均数，也可以是中位数。

但我要告诉你一件事：

只知道中心，远远不够。

看下面两个班的数学成绩。

A 班

78, 80, 82, 79, 81

B 班

50, 95, 60, 100, 95

你算一下平均分：

A 班平均分 = 80
B 班平均分 = 80

两个班平均分一模一样，都是 80。

那这两个班的情况一样吗？

完全不一样。

A 班所有人都在 80 分上下，整整齐齐，说明全班水平很稳定。

B 班呢？

有人考 50，有人考 100，差距非常大，说明班里两极分化明显。

如果你只看平均分，你会以为这两个班一样。但实际上，它们的内部结构完全不同。

同样平均值但波动不同的示意图 — 图 3：平均值一样，不代表数据结构一样。中心相同，波动可能完全不同。

那我们要怎么描述这种“散开的程度”？

这就要请出今天最后两个主角：

方差 Variance 和标准差 Standard Deviation。

方差和标准差：描述波动的尺子

方差和标准差听起来有点吓人，但本质很简单。

它们衡量的是：这组数据到底散得有多开。

如果所有数据都挤在平均值附近，波动就小，标准差也小。

如果数据散得到处都是，波动就大，标准差也大。

所以你可以先把标准差理解成一把尺子：

标准差，是测量“数据通常离平均值有多远”的尺子。

A 班成绩都在 80 分附近，所以标准差小。

B 班成绩从 50 到 100 都有，所以标准差大。

这里不用急着背公式。先记住它的直觉意义就够了：

标准差越小，数据越整齐、越稳定、越可预测。
标准差越大，数据越分散、越波动、越不稳定。

那方差和标准差有什么区别？

方差和标准差都在描述波动。

区别在于，方差用的是“平方后的距离”，所以它的单位不太直观。

比如成绩的单位是“分”，但方差的单位会变成“平方分”。工资的单位是“元”，但方差的单位会变成“平方元”。

这听起来就很奇怪，也不太适合日常解释。

标准差则会把单位拉回到原始数据的单位。

成绩的标准差，单位还是“分”。
工资的标准差，单位还是“元”。
气温的标准差，单位还是“℃”。

所以在日常理解里，标准差通常比方差更容易解释。

你可以这么记：

方差是计算波动的中间语言，标准差是更适合人类理解的版本。

为什么标准差这么重要？

这是我最想强调的一点。

我们的大脑天生喜欢一个数字。

平均分、平均工资、平均寿命、平均收益——简单、好记、好比较。

所以平均数特别受欢迎。

但只看平均数，你会错过一大块信息。

那块信息，就是波动。

标准差告诉你的，不是“中心在哪里”，而是：

这组数据到底稳不稳定。

举几个生活里的例子。

选地方生活

两个城市年平均气温都是 20℃。

听起来一样舒服，对吧？

但 A 城常年在 18℃ 到 22℃ 之间，天气很稳定。

B 城夏天 40℃，冬天 -5℃，一年里冷热变化巨大。

平均气温一样，但住起来完全不是一回事。

这里真正影响体验的，就是波动。

等公交车

两条公交线路，官方都说平均 10 分钟一班。

A 线真的差不多每 10 分钟来一辆。

B 线有时候 2 分钟来三辆，有时候等 25 分钟都不来。

平均值一样，但等待体验完全不同。

A 线标准差小，所以稳定。

B 线标准差大，所以让人抓狂。

投资收益

两个基金过去五年平均收益都是 8%。

A 基金每年大概都在 7% 到 9%。

B 基金今年 +40%，明年 -25%，后年又突然暴涨。

平均收益一样，但风险完全不同。

这就是为什么专业投资人不会只看平均收益，也会看波动。

公交车等待体验与标准差示意图 — 图 4：平均等待时间相同，不代表体验相同。标准差越大，等待越不可预测。

把今天的内容串起来

我们今天聊了四个词：

概念

它回答什么问题

一句话记忆

平均数 Mean

数据的中心在哪里？

最常用，但怕极端值。

中位数 Median

排在最中间的是谁？

不怕极端值，更适合不均匀数据。

方差 Variance

数据散得有多开？

描述波动，但单位不直观。

标准差 Std Dev

数据通常离中心有多远？

最适合理解稳定性和波动。

如果让我用一句话总结今天的全部内容，那就是：

一组数据的真相，至少需要两个数字才能描述：一个告诉你“中心在哪”，一个告诉你“散得多开”。

平均数和中位数，帮你理解中心。

标准差，帮你理解波动。

只看其中一个，你看到的通常只是半个故事。

最后再啰嗦一句

回到开头那家公司。

如果有人只告诉你“平均工资 5 万 4”，你现在应该会本能地多问一句：

中位数是多少？标准差大不大？

这种“多问一句”的本能，就是数据素养的开始。

在这个被数据包围的时代，谁都能甩给你一个漂亮的平均数。

但能不能看穿它背后藏着什么、漏掉了什么—— 这才是把数据真正变成判断力的关键。

下次再有人用一个“平均数”想说服你什么，记得在心里提醒自己：

平均数只是故事的开头，不是结尾。

先做个小测验

平均数：最熟悉，也最容易被误用

中位数：那个更老实的家伙

什么时候应该看中位数？

等等，光知道“中间在哪”还不够

方差和标准差：描述波动的尺子

那方差和标准差有什么区别？

为什么标准差这么重要？

选地方生活

等公交车

投资收益

把今天的内容串起来

最后再啰嗦一句

评论

发表回复 取消回复

更多文章

为什么大部分散户折腾了一通量化，最后还是个韭菜

AI 再聪明，也救不了一堆垃圾数据

样本量不是拍脑袋：从一锅汤说起

数据也有“长相”：聊聊分布、偏态和钟形曲线

发表回复取消回复