往前迈出第一步:判断数据类型

判断数据类型,是所有数据分析最容易被忽略、但最关键的第一步。 在按下公式、打开图表、询问 AI 之前,我们先要知道:这一列数据,到底是什么类型?

从两千五百年前的一个想法说起

公元前 6 世纪,古希腊有一位叫毕达哥拉斯(Pythagoras)的哲学家提出了一句话——

“万物皆数。”

他认为,世界的本质不是金、木、水、火,也不是神话里的诸神,而是数字。 音乐的和声背后是数字的比例,宇宙的运行背后是数字的规律,连人的灵魂他都觉得能用数字描述。 当时听起来很离谱,但两千五百年过去了,这句话越来越像是真的。

跳到现代。

埃隆·马斯克(Elon Musk)公开说过:我们生活在“真实世界”里的概率,只有十亿分之一。 他相信我们更可能是某个高级文明计算机里的一段代码。这听起来像科幻片,但他不是随便说的—— 这个观点来自牛津大学哲学教授 Nick Bostrom 2003 年的著名论文《你可能活在一个计算机模拟中》。

这篇论文严肃地论证了一件事:如果世界真的可以被计算机模拟出来,那它的本质就是数据。

不管你信不信这种说法,有一件事是确定的——这个世界上能被我们感知到的一切,几乎都能被数字表达。 你的身高、你的心跳、你正在看的屏幕上的每一个像素、你大脑里正在闪过的念头 (科学家正在用脑机接口把它转成数据)——一切,最终都能变成一串数。

特别是在 AI 的时代,这件事的意义被放大了一万倍。 AI 学不会“美”“善”“勇敢”,但它能学会海量的数据; 只要把这个世界的一切转成数据,AI 就有可能理解它、预测它、甚至重新创造它。

而你想看懂这个数据驱动的新世界,第一步要做的事情,特别简单——

学会判断数据的类型。

从万物皆数到 AI 时代的数据世界
图 1:从“万物皆数”到 AI 时代的数据世界。

一个奇怪的问题

我先问你一个问题。

下面这五样东西——你的身高、你今天喝了几杯水、外面的气温、你考试的分数、你抽到的扑克牌花色—— 它们都是“数据”对吧?你都能用一张表格记下来。

但如果我让你把它们加起来求平均,你会发现:

  • 身高的平均,比如 168.5 cm —— 有意义
  • 喝水杯数的平均,比如 4.7 杯 —— 好像怪怪的,“4.7 杯水”是什么意思?
  • 气温平均,比如 23.6 ℃ —— 有意义
  • 分数平均,比如 87 分 —— 有意义
  • 花色的平均,红桃 + 黑桃 ÷ 2 = ??? —— 算不出来

为什么有的能算,有的不能算?

因为它们不是同一种数据。

数据的两大类

我知道你可能在课本里看过“定类、定序、定距、定比”这种词,密密麻麻一堆。

我们不那么搞。记住两种就够了:

连续型数据 Continuous

可以测出小数的。

离散型数据 Discrete

只能数数或者分类的。

这听起来很抽象。我们一个一个看。

连续型数据和离散型数据总览
图 2:连续型数据 vs. 离散型数据。

连续型:可以无限切下去的世界

想象你正在量自己的身高。

如果尺子精度是 1 cm,你量出来是 168 cm。 换一把精度 1 mm 的尺子——168.3 cm。 再换一把激光测距仪——168.347 cm。 再换一把更精密的——168.3479 cm。

只要你的工具够精密,168 和 169 之间永远还能塞进无数个数字。 168.5、168.51、168.501、168.5001……理论上没完没了。

这就是连续型数据的本质—— 它在数轴上是一条没有缝隙的线。

生活里常见的连续型数据:

  • 身高、体重、腰围
  • 气温、水温
  • 跑步用了多长时间,包括秒、毫秒
  • 从家到学校的距离
  • 你睡了多久
  • 手机电量百分比,虽然显示是整数,但实际是连续的

判断方法很简单——问自己:这个数据,理论上能不能取到小数?

能。那它就是连续型。

连续型数据示例:身高
图 3:连续型数据可以随着测量精度提高而不断细分。

离散型:只能“数”的世界

再换个场景。

你打开一袋彩虹糖,数一下里面有多少颗。 第一颗、第二颗、第三颗……数到最后,47 颗。

会不会出现“这袋有 47.3 颗彩虹糖”?

不会。糖要么是 47 颗,要么是 48 颗,没有半颗。 当然,如果你把一颗咬碎了,那就不是“完整的糖”了。

这就是离散型数据—— 它在数轴上是一个一个分开的点,中间是空的。

生活里常见的离散型数据:

  • 班里有几个人
  • 你今天发了几条朋友圈
  • 掷骰子掷出来的点数:1、2、3、4、5、6,没有 3.5
  • 一局游戏里你死了几次
  • 抽到几张红桃

判断方法也简单——这个数据,是不是只能“数”出来?

是。那它就是离散型。

离散型数据示例:糖果、骰子、扑克牌花色
图 4:离散型数据是一个一个分开的结果,中间没有连续取值。

那“扑克牌花色”算什么?“游戏角色性别”算什么?

回到开头的问题——花色(红桃、黑桃、方块、梅花)、性别(男、女)、星座(白羊、金牛……)这些东西。

它们看起来根本不是数字。它们是数据吗?是哪种?

答案:都是离散型。

只不过它们穿了个马甲。

“是不是”问题——比如“今天有没有下雨?”(是 / 否)、“这道题做对了吗?”(对 / 错)。 这种只有两个答案的,专门起了个名字叫“二元数据”(Binary)。我们经常把它写成 0 和 1。

“哪一类”问题——比如“你最喜欢哪个季节?”(春 / 夏 / 秋 / 冬)、 “你抽到什么花色?”(红桃 / 黑桃 / 方块 / 梅花)。 这种有几个固定类别的,叫“分类数据”(Category)。

虽然它们看起来不像数字,但本质上都属于离散型—— 因为它们也是“一个一个分开的、中间是空的”。 你不能说“今天下雨度是 0.7”,也不能说“我有一半的红桃”。

只要数据中间没有“无限可分”的特性,它就是离散型。不管它写出来是数字、是文字、还是字母。

为什么这件事这么重要?

讲到这里你可能想问——

OK,我知道身高是连续的,糖果数量是离散的,那又怎么样?

我给你看一个真的会出错的例子。

假设你在统计“班上每个人平均一周看几次电影”。你收了一圈数据:

  • 小张:2 次
  • 小李:1 次
  • 小王:0 次
  • 小赵:3 次
  • 小钱:1 次

你按 =AVERAGE() 一拉,得出“平均 1.4 次”。

听起来好像没问题。

“一周看 1.4 次电影”是什么意思? 没有人能看 0.4 部电影。

你说:“那是平均啊,不是某个人真的看 1.4 次。”

对,用平均值描述一个整体的“中心趋势”是 OK 的——这是统计学允许的简化。

但问题来了:如果你接下来想知道“这个班看电影的习惯波动有多大”—— 比如“是不是有人特别爱看,有人完全不看”?

对连续型数据,比如身高,你算标准差,就能告诉你大家分散得多厉害。

但对离散型数据呢?

如果数据是 0、1、2、3 这种小整数,标准差还能勉强算一下当参考; 但如果数据是“红桃 / 黑桃 / 方块 / 梅花”这种分类呢?

根本算不了标准差。因为这些东西没有“大小”之分——红桃比黑桃“大”多少?没法说。

这时候你需要的是完全不同的一套统计工具,比如比例、卡方检验。 用错工具,得到的结论再漂亮也是错的。

这才是判断数据类型真正的意义—— 它决定了你接下来能用什么方法、不能用什么方法。

一张速查图

为了让你以后不用每次都纠结,给你一个 30 秒决策法:

问自己一个问题:这个数据,理论上能不能取到小数?

✅ 能 → 连续型:可以算平均值、标准差,画折线图。

❌ 不能 → 离散型:要数次数、算比例,画条形图、饼图。

如果数据看起来根本不是数字,比如文字、类别、颜色、是否、对错,直接归到离散型。

就这么简单。

最后再啰嗦一句

以上内容看上去非常简单,但在 AI 的时代里,所有的数据分析,第一步都是这一步。

把“扑克花色”当连续数字平均,把“是不是合格”按温度的方法去算波动, 把“喜欢的季节”画成折线图——这些事情,我见过太多人犯,而且他们自己都意识不到。

毕达哥拉斯说万物皆数,Bostrom 说世界可能是模拟出来的,AI 在用数据重新理解这个世界。 而你和这个数据世界之间的第一道门,就是搞清楚你看到的数据,到底是什么类型。

所以,下次你打开一份数据,别急着按公式。先花 10 秒钟问自己:

我手里这一列,是连续型,还是离散型?

这 10 秒,就是你从“按按钮的人”变成“懂数据的人”的第一步。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注