DATA BASICS · 入门 → 专业

垃圾进，垃圾出：AI 再聪明，也救不了一堆烂数据

AI 可以帮你更快地分析数据，但它不能替你保证结果就是对的。在谈算法和模型之前，先问一句：这张表里的数据，可靠吗？

一个有点荒唐、但经常发生的故事

一家公司花了几百万上 AI 系统，最后问题却出在一把几十块钱的卡尺上。

几百万的 AI，败给几十块的卡尺？

听起来像段子，但在真实世界里，这类事情并不少见。

剧本通常是这样的：

公司希望用 AI 分析产线数据，做所谓的数据孪生，预测哪些参数会影响不良率，甚至提前预警异常。数据量很大，系统很贵，项目启动时大家也很兴奋。

结果跑出来以后，模型结论却经常前后矛盾：

今天说温度是关键因素，明天又说速度最重要；
某些批次明明现场看起来没问题，模型却报高风险；
有些明显异常的情况，模型反而没识别出来。

于是大家开始怀疑：

是不是算法不够先进？
是不是模型还要再调？
是不是数据量还不够大？
是不是应该换一个更强的 AI？

折腾一圈以后，最后才发现真正的问题很朴素：

产线上用于测量的卡尺本身就不准。

也就是说，AI 学到的那些“生产数据”，从一开始就是歪的。模型不是没努力，它只是非常认真地学习了一堆不可靠的数据。

这件事背后的问题，比“模型好不好”更基础：

你喂给 AI 的数据，本身可信吗？

垃圾进，垃圾出

计算机领域有一句流传很久的话：

Garbage In, Garbage Out.

中文通常翻译成：

垃圾进，垃圾出。

意思很简单：如果输入的是垃圾数据，不管中间的计算多复杂、模型多高级、图表多漂亮，最后输出的也很可能是垃圾结论。

这就像做菜。

你可以有很好的厨艺、很贵的锅、很复杂的菜谱，但如果食材已经坏了，最后做出来的东西也不会好吃。

数据分析也是一样。

我们前面几篇文章聊过数据类型、平均值、中位数、标准差、数据分布和样本量。这些内容都很重要，但它们有一个共同的隐含前提：

你手里的数据，至少要基本可信。

如果这个前提不成立，后面的分析就会变得很危险。

平均值会变成“错误数据的平均值”。
标准差会变成“错误波动的标准差”。
分布图会变成“脏数据的形状”。
样本量再大，也只是更稳定地描述一堆不可靠的数据。

更麻烦的是，错误数据有时候并不会看起来很离谱。它可能很整齐、很完整、很像真的。

这才是最危险的地方。

垃圾进垃圾出，输入不可信，输出再漂亮也不可靠 — 输入不可信，输出再漂亮也不可靠。

在 AI 时代，这件事更重要了

你可能会想：数据错了这件事，以前也有。为什么到了 AI 时代要特别强调？

因为 AI 很擅长从数据里学习规律。

这本来是它的强项，但也是它的风险来源。

如果你给它的是高质量数据，它可能帮你发现人眼看不出来的规律。
如果你给它的是错误数据、偏差数据、定义混乱的数据，它也可能从里面“学出一套规律”。

问题是，那套规律可能根本不属于真实世界，而只属于那堆坏数据。

更麻烦的是，AI 输出的结果往往看起来很像那么回事。它可以生成清晰的图表、完整的解释、流畅的文字，甚至看起来比人写得还专业。

于是人就更容易相信它。

这就是 AI 时代的数据质量风险：

坏数据不会因为进入了 AI 系统就自动变好，它只是可能被包装成更像真的结论。

所以，AI 越强，数据质量越重要。

不是因为 AI 没用。恰恰相反，是因为 AI 太会从数据里学习了，所以你更要确认它学的东西到底靠不靠谱。

数据为什么会变脏？

“脏数据”这个词听起来有点抽象。

它不一定是有人故意造假。更多时候，它来自一些非常普通、非常日常、甚至很不起眼的问题。

1. 测量不准

这是制造业里最常见、也最容易被低估的问题之一。

比如：

一把用久了的卡尺，刻度已经磨损。
一台温度计长期偏高 2 度。
同一个零件，A 操作员测出来是 10.2，B 操作员测出来是 10.4。
同一个人、同一个样品，连续测两次，结果也不一样。

这时候，问题不是数据分析方法不够高级，而是数据从被测出来的那一刻就已经不可靠。

如果测量系统本身不稳定，后面所有分析都会受到影响。

你以为自己在分析产品波动，实际上可能是在分析测量误差。
你以为某个供应商质量变差了，实际上可能是检测人员换了。
你以为参数调整后结果改善了，实际上可能是测量方式变了。

工业里专门有一套方法研究这个问题，叫：

MSA：Measurement System Analysis，测量系统分析。

它要回答的问题很朴素：

这套测量工具和测量流程，到底靠不靠谱？

同一个东西反复测，结果稳不稳？
不同人测同一个东西，差别大不大？
测量误差和产品本身的真实波动相比，到底占多大比例？

这些问题，比模型选择更基础。

2. 抽样有偏

上一篇我们聊过样本量。样本量回答的是：

抽多少才够？

但还有一个更基础的问题：

从哪里抽？怎么抽？

如果你想了解全校学生对食堂的满意度，却只问篮球队的几个同学，这个样本很可能就有偏。因为篮球队的饭量、口味、用餐频率，可能和全校平均情况不一样。

制造业里也是一样。

你想判断一批原料质量，却只拿最上面一层样品。
你想评估一条产线的稳定性，却只抽白班的数据。
你想比较两个供应商，却刚好一个抽到了旺季批次，一个抽到了淡季批次。
你想分析设备状态，却只保留了正常运行时的数据，把停机异常删掉了。

这些情况都会让数据看起来很完整，但其实不代表真实整体。

这类问题叫：

抽样偏差。

抽样偏差最麻烦的地方在于：数据量再大，也不一定能解决它。

如果你只在错误的位置抽样，抽得越多，只是越精确地描述那个错误的位置。

3. 定义和记录混乱

除了测量和抽样，还有一类问题也很常见：数据记录本身不统一。

比如：

同一个“不良”，A 班组叫“破损”，B 班组叫“外观缺陷”。
同一个字段，去年记录的是设定温度，今年记录的是实际温度。
设备时间和系统时间差了 5 分钟，导致参数和结果对不上。
人工录入时，有人填 “N/A”，有人填 “0”，有人直接空着。
某个产品换了配方，但数据库里的产品代码没有及时更新。

这些问题看起来不像“数据错了”，但它们会让分析变得非常危险。

因为模型并不知道这些背景。

它只会把表格里的字段当成事实，然后从里面学习规律。

所以，数据质量不是简单地问：

有没有数据？

而是要继续问：

这些数据的定义一致吗？
记录方式稳定吗？
时间顺序对得上吗？
字段含义有没有变过？
空值和异常值是怎么产生的？

这些听起来很琐碎，但现实中，很多分析项目就是死在这些琐碎问题上。

从真实世界到可信数据，中间有几道关

现在我们把这条线串起来。

从真实世界到一份可以拿来分析的数据，中间至少要过几道关。

第一道关，是抽样。

你抽到的样本能不能代表整体？
数量够不够？
有没有只抽到某一类情况？
有没有漏掉异常、边缘、夜班、换线、停机等关键场景？

第二道关，是测量。

测量工具准不准？
不同人测会不会差很多？
同一个人重复测稳不稳？
测量误差和真实产品波动相比大不大？

第三道关，是记录和定义。

字段有没有统一定义？
数据有没有漏记、错记、重复记录？
时间戳和批次能不能对上？
不同系统之间的数据能不能正确关联？

这些关都过了，你手里的数据才更接近“可信数据”。

后面的平均值、标准差、分布、样本量、假设检验、机器学习、AI 分析，才有讨论的意义。

否则，你不是在分析真实世界，而是在分析一堆记录错误、抽样偏差和测量误差混在一起的影子。

真实世界到可信数据再到分析AI的数据质量流程 — 数据不是天然可信的，它要经过几道关。

一个很重要的判断顺序

很多人做数据分析时，顺序是这样的：

先找模型，再看数据。

比如一上来就问：

用不用随机森林？
要不要上神经网络？
能不能用 AI 自动分析？
要不要做一个 dashboard？
要不要训练一个预测模型？

这些问题不是不能问，但问得太早了。

更合理的顺序应该是：

先看数据，再谈模型。

甚至更准确地说：

先确认数据怎么来的，再谈数据能做什么。

因为不同来源的数据，能支持的结论不一样。

如果数据来自一次粗略抽样，你就不能把结论说得太绝对。
如果测量系统没有验证过，你就不能过度解释微小差异。
如果字段定义前后变过，你就不能直接做长期趋势。
如果异常数据被人为删掉，你就不能用它训练异常预测模型。

模型只能回答数据允许它回答的问题。

数据质量决定了分析的上限。

基础系列到这里，刚好闭环了

到这篇为止，我们这个基础系列其实已经形成了一条完整的线：

判断数据类型，是为了知道不同数据该用不同方法。
平均值、中位数、标准差，是为了描述一组数据的中心和波动。
数据分布，是为了看到数据的形状，而不是只盯着一个数字。
样本量，是为了知道抽多少才比较可靠。
数据质量，是为了确认你分析的东西本身值不值得相信。

这几件事加在一起，才是进入数据世界的基本功。

它们不炫，但很重要。

尤其在 AI 时代，越是炫的工具，越依赖这些朴素的基础。

因为 AI 不会替你自动补上所有前提。
它也不知道你那把卡尺有没有校准。
它不知道白班和夜班的数据是不是混在一起。
它不知道某个字段从今年开始换了定义。
它只知道：你给了它一张表。

所以，在真正开始分析之前，先问一句：

这张表里的数据，可靠吗？

这句话，比很多复杂模型都值钱。

接下来，我们换一个频道

Science & AI 的基础部分，先到这里告一段落。

后面如果继续往下走，就会进入更具体的场景：

测量系统到底怎么判断可靠？
改善前后到底怎么证明有效？
参数很多时怎么设计实验？
供应商质量怎么判断是正常波动还是已经变差？
生产数据很多时，怎么找到真正有用的信号？

这些问题就不只是“概念科普”了，而是更接近真实制造业现场的专业方法。

所以后面我会逐步把它们放到 Academy 专业方法 里，用案例和工具来讲。

如果用一句话给这篇收尾，我会选这一句：

AI 可以帮你更快地分析数据，但它不能替你保证数据一开始就是对的。

垃圾进，垃圾出。
在谈智能之前，先把数据弄干净。

一个有点荒唐、但经常发生的故事

垃圾进，垃圾出

在 AI 时代，这件事更重要了

数据为什么会变脏？

1. 测量不准

2. 抽样有偏

3. 定义和记录混乱

从真实世界到可信数据，中间有几道关

一个很重要的判断顺序

基础系列到这里，刚好闭环了

接下来，我们换一个频道

评论

2 条对“AI 再聪明，也救不了一堆垃圾数据”的回复

发表回复 取消回复

更多文章

为什么大部分散户折腾了一通量化，最后还是个韭菜

AI 再聪明，也救不了一堆垃圾数据

样本量不是拍脑袋：从一锅汤说起

数据也有“长相”：聊聊分布、偏态和钟形曲线

发表回复取消回复