垃圾进,垃圾出:AI 再聪明,也救不了一堆烂数据
AI 可以帮你更快地分析数据,但它不能替你保证结果就是对的。 在谈算法和模型之前,先问一句:这张表里的数据,可靠吗?
一个有点荒唐、但经常发生的故事
一家公司花了几百万上 AI 系统,最后问题却出在一把几十块钱的卡尺上。
几百万的 AI,败给几十块的卡尺?
听起来像段子,但在真实世界里,这类事情并不少见。
剧本通常是这样的:
公司希望用 AI 分析产线数据,做所谓的数据孪生,预测哪些参数会影响不良率, 甚至提前预警异常。数据量很大,系统很贵,项目启动时大家也很兴奋。
结果跑出来以后,模型结论却经常前后矛盾:
今天说温度是关键因素,明天又说速度最重要;
某些批次明明现场看起来没问题,模型却报高风险;
有些明显异常的情况,模型反而没识别出来。
于是大家开始怀疑:
是不是算法不够先进?
是不是模型还要再调?
是不是数据量还不够大?
是不是应该换一个更强的 AI?
折腾一圈以后,最后才发现真正的问题很朴素:
产线上用于测量的卡尺本身就不准。
也就是说,AI 学到的那些“生产数据”,从一开始就是歪的。 模型不是没努力,它只是非常认真地学习了一堆不可靠的数据。
这件事背后的问题,比“模型好不好”更基础:
你喂给 AI 的数据,本身可信吗?
垃圾进,垃圾出
计算机领域有一句流传很久的话:
Garbage In, Garbage Out.
中文通常翻译成:
垃圾进,垃圾出。
意思很简单:如果输入的是垃圾数据,不管中间的计算多复杂、模型多高级、 图表多漂亮,最后输出的也很可能是垃圾结论。
这就像做菜。
你可以有很好的厨艺、很贵的锅、很复杂的菜谱,但如果食材已经坏了, 最后做出来的东西也不会好吃。
数据分析也是一样。
我们前面几篇文章聊过数据类型、平均值、中位数、标准差、数据分布和样本量。 这些内容都很重要,但它们有一个共同的隐含前提:
你手里的数据,至少要基本可信。
如果这个前提不成立,后面的分析就会变得很危险。
平均值会变成“错误数据的平均值”。
标准差会变成“错误波动的标准差”。
分布图会变成“脏数据的形状”。
样本量再大,也只是更稳定地描述一堆不可靠的数据。
更麻烦的是,错误数据有时候并不会看起来很离谱。它可能很整齐、很完整、很像真的。
这才是最危险的地方。
在 AI 时代,这件事更重要了
你可能会想:数据错了这件事,以前也有。为什么到了 AI 时代要特别强调?
因为 AI 很擅长从数据里学习规律。
这本来是它的强项,但也是它的风险来源。
如果你给它的是高质量数据,它可能帮你发现人眼看不出来的规律。
如果你给它的是错误数据、偏差数据、定义混乱的数据,它也可能从里面“学出一套规律”。
问题是,那套规律可能根本不属于真实世界,而只属于那堆坏数据。
更麻烦的是,AI 输出的结果往往看起来很像那么回事。它可以生成清晰的图表、 完整的解释、流畅的文字,甚至看起来比人写得还专业。
于是人就更容易相信它。
这就是 AI 时代的数据质量风险:
坏数据不会因为进入了 AI 系统就自动变好,它只是可能被包装成更像真的结论。
所以,AI 越强,数据质量越重要。
不是因为 AI 没用。 恰恰相反,是因为 AI 太会从数据里学习了,所以你更要确认它学的东西到底靠不靠谱。
数据为什么会变脏?
“脏数据”这个词听起来有点抽象。
它不一定是有人故意造假。更多时候,它来自一些非常普通、非常日常、 甚至很不起眼的问题。
1. 测量不准
这是制造业里最常见、也最容易被低估的问题之一。
比如:
一把用久了的卡尺,刻度已经磨损。
一台温度计长期偏高 2 度。
同一个零件,A 操作员测出来是 10.2,B 操作员测出来是 10.4。
同一个人、同一个样品,连续测两次,结果也不一样。
这时候,问题不是数据分析方法不够高级,而是数据从被测出来的那一刻就已经不可靠。
如果测量系统本身不稳定,后面所有分析都会受到影响。
你以为自己在分析产品波动,实际上可能是在分析测量误差。
你以为某个供应商质量变差了,实际上可能是检测人员换了。
你以为参数调整后结果改善了,实际上可能是测量方式变了。
工业里专门有一套方法研究这个问题,叫:
MSA:Measurement System Analysis,测量系统分析。
它要回答的问题很朴素:
这套测量工具和测量流程,到底靠不靠谱?
同一个东西反复测,结果稳不稳?
不同人测同一个东西,差别大不大?
测量误差和产品本身的真实波动相比,到底占多大比例?
这些问题,比模型选择更基础。
2. 抽样有偏
上一篇我们聊过样本量。样本量回答的是:
抽多少才够?
但还有一个更基础的问题:
从哪里抽?怎么抽?
如果你想了解全校学生对食堂的满意度,却只问篮球队的几个同学, 这个样本很可能就有偏。因为篮球队的饭量、口味、用餐频率, 可能和全校平均情况不一样。
制造业里也是一样。
你想判断一批原料质量,却只拿最上面一层样品。
你想评估一条产线的稳定性,却只抽白班的数据。
你想比较两个供应商,却刚好一个抽到了旺季批次,一个抽到了淡季批次。
你想分析设备状态,却只保留了正常运行时的数据,把停机异常删掉了。
这些情况都会让数据看起来很完整,但其实不代表真实整体。
这类问题叫:
抽样偏差。
抽样偏差最麻烦的地方在于:数据量再大,也不一定能解决它。
如果你只在错误的位置抽样,抽得越多,只是越精确地描述那个错误的位置。
3. 定义和记录混乱
除了测量和抽样,还有一类问题也很常见:数据记录本身不统一。
比如:
同一个“不良”,A 班组叫“破损”,B 班组叫“外观缺陷”。
同一个字段,去年记录的是设定温度,今年记录的是实际温度。
设备时间和系统时间差了 5 分钟,导致参数和结果对不上。
人工录入时,有人填 “N/A”,有人填 “0”,有人直接空着。
某个产品换了配方,但数据库里的产品代码没有及时更新。
这些问题看起来不像“数据错了”,但它们会让分析变得非常危险。
因为模型并不知道这些背景。
它只会把表格里的字段当成事实,然后从里面学习规律。
所以,数据质量不是简单地问:
有没有数据?
而是要继续问:
这些数据的定义一致吗?
记录方式稳定吗?
时间顺序对得上吗?
字段含义有没有变过?
空值和异常值是怎么产生的?
这些听起来很琐碎,但现实中,很多分析项目就是死在这些琐碎问题上。
从真实世界到可信数据,中间有几道关
现在我们把这条线串起来。
从真实世界到一份可以拿来分析的数据,中间至少要过几道关。
第一道关,是抽样。
你抽到的样本能不能代表整体?
数量够不够?
有没有只抽到某一类情况?
有没有漏掉异常、边缘、夜班、换线、停机等关键场景?
第二道关,是测量。
测量工具准不准?
不同人测会不会差很多?
同一个人重复测稳不稳?
测量误差和真实产品波动相比大不大?
第三道关,是记录和定义。
字段有没有统一定义?
数据有没有漏记、错记、重复记录?
时间戳和批次能不能对上?
不同系统之间的数据能不能正确关联?
这些关都过了,你手里的数据才更接近“可信数据”。
后面的平均值、标准差、分布、样本量、假设检验、机器学习、AI 分析, 才有讨论的意义。
否则,你不是在分析真实世界,而是在分析一堆记录错误、抽样偏差和测量误差混在一起的影子。
一个很重要的判断顺序
很多人做数据分析时,顺序是这样的:
先找模型,再看数据。
比如一上来就问:
用不用随机森林?
要不要上神经网络?
能不能用 AI 自动分析?
要不要做一个 dashboard?
要不要训练一个预测模型?
这些问题不是不能问,但问得太早了。
更合理的顺序应该是:
先看数据,再谈模型。
甚至更准确地说:
先确认数据怎么来的,再谈数据能做什么。
因为不同来源的数据,能支持的结论不一样。
如果数据来自一次粗略抽样,你就不能把结论说得太绝对。
如果测量系统没有验证过,你就不能过度解释微小差异。
如果字段定义前后变过,你就不能直接做长期趋势。
如果异常数据被人为删掉,你就不能用它训练异常预测模型。
模型只能回答数据允许它回答的问题。
数据质量决定了分析的上限。
基础系列到这里,刚好闭环了
到这篇为止,我们这个基础系列其实已经形成了一条完整的线:
判断数据类型,是为了知道不同数据该用不同方法。
平均值、中位数、标准差,是为了描述一组数据的中心和波动。
数据分布,是为了看到数据的形状,而不是只盯着一个数字。
样本量,是为了知道抽多少才比较可靠。
数据质量,是为了确认你分析的东西本身值不值得相信。
这几件事加在一起,才是进入数据世界的基本功。
它们不炫,但很重要。
尤其在 AI 时代,越是炫的工具,越依赖这些朴素的基础。
因为 AI 不会替你自动补上所有前提。
它也不知道你那把卡尺有没有校准。
它不知道白班和夜班的数据是不是混在一起。
它不知道某个字段从今年开始换了定义。
它只知道:你给了它一张表。
所以,在真正开始分析之前,先问一句:
这张表里的数据,可靠吗?
这句话,比很多复杂模型都值钱。
接下来,我们换一个频道
Science & AI 的基础部分,先到这里告一段落。
后面如果继续往下走,就会进入更具体的场景:
测量系统到底怎么判断可靠?
改善前后到底怎么证明有效?
参数很多时怎么设计实验?
供应商质量怎么判断是正常波动还是已经变差?
生产数据很多时,怎么找到真正有用的信号?
这些问题就不只是“概念科普”了,而是更接近真实制造业现场的专业方法。
所以后面我会逐步把它们放到 Academy 专业方法 里,用案例和工具来讲。
如果用一句话给这篇收尾,我会选这一句:
AI 可以帮你更快地分析数据,但它不能替你保证数据一开始就是对的。
垃圾进,垃圾出。
在谈智能之前,先把数据弄干净。

发表回复