数据也有“长相”:聊聊分布、偏态和钟形曲线

拿到一堆数字,别急着算平均。先画出来看看,它到底长什么样。 数据的形状,会告诉你应该用什么方式去理解它。

先回顾一下我们聊到哪了

如果你看过前两篇——

第一篇,我们学会了分辨数据类型:连续型和离散型。

连续型数据可以不断细分,比如身高、体重、温度。 离散型数据只能一个一个数,比如人数、次数、件数。

第二篇,我们学会了描述一组数据的中心波动

中心可以用平均数,也可以用中位数。 波动可以用方差和标准差来理解。

今天我们往前再走一步,问一个更有意思的问题:

当你把一大堆数据画出来,它们会呈现出什么“形状”?

这个“形状”,就叫:

数据分布 Data Distribution。

听起来有点抽象,但其实你每天都在和它打交道。 只是很多时候,我们没有把它画出来而已。

数据其实是有“长相”的

想象一下,你测量了全校 1000 个同学的身高。

然后你做一件很简单的事:

把身高每隔 5 厘米分一组,数一数每组有多少人,再画成柱状图。

比如:

  • 150–155 cm 有多少人?
  • 155–160 cm 有多少人?
  • 160–165 cm 有多少人?
  • 一直数到 190 cm 以上。

画出来之后,你大概率会看到一个很有意思的形状:

中间高,两边低。

特别矮的人不多。 特别高的人也不多。 大部分人都集中在中间那个“不高不矮”的区间里。

如果你把这些柱子的顶端用一条平滑曲线连起来,就会看到一条很像钟的曲线。

这条曲线,就是统计学里非常重要的:

正态分布 Normal Distribution。

也叫:

高斯分布 Gaussian Distribution。

它可能是整个统计学里最有名的一条曲线。

1000 个人身高画出来像一口钟
图 1:把 1000 个人的身高画成柱状图,通常会看到中间高、两边低的形状。

为什么正态分布这么常见?

正态分布重要,是因为很多连续型数据都容易长成这个样子。

比如:

  • 同龄人的身高
  • 同龄人的体重
  • 一片麦田里每株麦子的高度
  • 一个人每天的睡眠时长
  • 很多大样本考试的分数

这些数据画出来,常常会接近那种“中间多、两头少”的钟形。

这不是巧合。

背后有一个很重要的统计学规律,叫:

中心极限定理 Central Limit Theorem。

名字听起来很吓人,但你先不用记公式。

你只需要记住一个直觉:

当一个结果是由很多个微小、独立、随机的因素一起影响时,它最后往往会接近钟形分布。

拿身高举例。

一个人的身高会受到很多因素影响:

父母基因、小时候的营养、睡眠、运动、激素、成长环境……

每个因素都推一点点。 有的往高处推,有的往低处推。 成百上千个小因素叠加起来,最后就容易形成中间多、两边少的形状。

这就是正态分布为什么经常出现。

它不是“神秘玄学”,而是很多微小随机因素叠加后的自然结果。

高尔顿板展示随机选择形成正态分布
图 2:很多随机的小选择,最后会堆成一条钟形曲线。高尔顿板就是一个很直观的例子。

正态分布让平均数和标准差变得特别有用

还记得第二篇里讲过的平均数和标准差吗?

平均数告诉你:

数据的中心在哪里。

标准差告诉你:

数据通常离中心有多远。

在正态分布里,这两个数字特别强大。

因为正态分布有一个非常经典的规律:

68 – 95 – 99.7 法则。

意思是:

  • 大约 68% 的数据,落在“平均数 ± 1 个标准差”之间。
  • 大约 95% 的数据,落在“平均数 ± 2 个标准差”之间。
  • 大约 99.7% 的数据,落在“平均数 ± 3 个标准差”之间。

这是什么意思?

举个例子。

假设某校男生平均身高是 172 cm,标准差是 6 cm

那么,如果身高大致符合正态分布:

  • 大约 68% 的男生,在 166–178 cm 之间。
  • 大约 95% 的男生,在 160–184 cm 之间。
  • 绝大多数男生,都会落在 154–190 cm 之间。

如果有一个同学身高 190 cm,那他就已经非常高了。 如果超过 190 cm,就更罕见。

你看,只用了两个数字:

  • 平均数 172 cm
  • 标准差 6 cm

我们就能大致理解一整群人的身高分布。

这就是正态分布厉害的地方。

当数据接近钟形时,“平均数 + 标准差”就是非常有信息量的一组描述。
68 95 99.7 法则示意图
图 3:在正态分布里,平均数和标准差可以帮助我们快速理解大多数数据落在哪里。

但是,不是所有数据都是钟形的

如果世界上的数据都长成钟形,那统计学就简单多了。

可惜,现实没这么乖。

有很多数据根本不是正态分布。

还记得第二篇那个“平均工资 5 万 4”的例子吗?

工资收入就是典型的非正态数据。

如果你把一个城市所有人的收入画出来,它通常不会是一条左右对称的钟形曲线。

它更可能是这样:

左边一大堆人,集中在中低收入区间。 右边拖着一条长长的尾巴,代表少数高收入和极高收入的人。

这种分布叫:

右偏分布 Right-skewed Distribution。

也可以叫:

长尾分布 Long-tail Distribution。

它的特点是:

大多数数据挤在一边,少数极端值把尾巴拖得很长。

生活里很多数据都是这种形状,比如:

  • 收入
  • 财富
  • 房价
  • 视频播放量
  • 文章阅读量
  • 社交媒体粉丝数
  • 城市人口规模

这些数据经常会出现少数特别大的值。

一个超级富豪。 一套天价豪宅。 一个爆款视频。 一个超级大城市。

它们都会把平均数往右边拉。

所以在这种情况下,平均数就容易显得“不接地气”。

不是平均数算错了,而是数据的形状不适合只看平均数。

这时候,更应该看什么?

答案是:

中位数。

中位数不太怕极端值。 它更关心“排在中间的人是谁”,而不是最右边那个极端值有多夸张。

所以:

  • 如果数据接近钟形,看平均数和标准差通常很合适。
  • 如果数据明显偏向一边、拖着长尾巴,就要多看中位数。
钟形分布和长尾分布对比图
图 4:不是所有数据都是一口钟。收入、财富、播放量这类数据,经常会拖着一条长尾巴。

看到分布以后,怎么选指标?

现在我们把前面几篇内容串起来。

拿到一组数据,不要一上来就急着算平均数。

你可以先问三个问题。

第一个问题:

它是连续型数据,还是离散型数据?

第二个问题:

它画出来是对称的,还是偏向一边?

第三个问题:

有没有极端值?

如果一组连续型数据画出来接近对称钟形,比如身高、很多自然测量数据,那么:

平均数 + 标准差 往往是很好的描述方式。

如果一组数据明显偏向一边,比如收入、房价、播放量、粉丝数,那么:

中位数 往往比平均数更接近普通人的真实体验。

如果你只看平均数,很可能会被少数极端值带偏。

所以,数据分布的意义不是让你背一个新名词。

它真正的意义是:

帮你判断应该用什么方式理解数据。

这就是为什么统计学里总是强调:

先画图,再分析。

离散型数据也有“分布”

前面讲的身高、体重、收入,大多是连续型数据。

那离散型数据呢?

当然也有分布。

离散型数据不能无限细分,它们通常是在数:

  • 发生了几次?
  • 成功了几个?
  • 出现了多少个?

这里简单认识两个常见名字就够了。

二项分布:成功了几次?

想象你抛硬币 10 次。

你关心的问题是:

出现了几次正面?

可能是 0 次。 也可能是 1 次、2 次、3 次。 最常见的情况,大概会在 5 次左右。

如果你重复这个实验很多很多次,把“10 次里出现几次正面”画成图,就会得到一个分布。

这个分布叫:

二项分布 Binomial Distribution。

它适合描述这类问题:

做 N 次,每次只有两种结果,然后数成功了几次。

比如:

  • 抛 10 次硬币,几次正面?
  • 投篮 20 次,进了几个?
  • 发 100 条短信,几个人回复?
  • 做 50 道判断题,答对几道?

二项分布的关键词是:

成功 / 失败。

它不一定非要是真的“成功”,只要每次结果可以分成两类,就可以这样理解。

泊松分布:发生了几次?

还有一种常见的离散型问题,是数:

某件事在一段时间里发生了几次?

比如:

  • 奶茶店每小时来几个顾客?
  • 一个路口一天发生几次轻微剐蹭?
  • 一本书每页有几个错别字?
  • 一个客服中心每分钟接到几个电话?

这种情况常常会用到:

泊松分布 Poisson Distribution。

它的关键词是:

单位时间内发生几次。

这里先不用展开公式。

你只要知道,离散型数据也不是乱来的。 它们也有自己的分布规律。

有些是在数“成功几次”。 有些是在数“发生几次”。

以后如果单独讲概率模型,我们再展开二项分布和泊松分布。

现在先记住一点就够了:

连续型数据有连续型的分布,离散型数据也有离散型的分布。

把今天的内容串起来

我们今天认识了一个非常重要的概念:

数据分布。

也就是:

数据画出来之后的形状。

形状不同,理解方式就不同。

情况
常见形状
先看什么
连续型数据,接近对称
正态分布 / 钟形曲线
平均数 + 标准差
连续型数据,明显偏向一边
偏态分布 / 长尾分布
中位数
离散型计数数据
一格一格的次数分布
概率 / 次数

如果让我用一句话总结今天的内容,那就是:

拿到一份数据,先别急着算。先把它画出来,看看它长什么样。

因为数据的形状,会告诉你很多事情。

它会告诉你:

  • 应该看平均数,还是中位数。
  • 应该关注标准差,还是先小心极端值。
  • 应该用连续型数据的思路,还是离散型数据的思路。

最后再啰嗦一句

很多人学统计,一上来就背公式、套计算。

但真正有经验的人,拿到数据后通常会先做一件很朴素的事:

画个图看看。

看它是不是一口钟。 看它是不是拖着长尾巴。 看它是不是一格一格的计数。 看它有没有奇怪的异常点。

因为分布的形状里,藏着数据最诚实的样子。

看懂了形状,你就看懂了这份数据的“性格”。

剩下的分析,只是在顺着它的性格,选择合适的工具而已。

所以下次拿到一堆数字,别急着求平均。

先问一句:

它长什么样?

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注