从第一性原理出发,你会发现AI的底层建筑完全是另一套东西
引子:一次让我陷入沉思的对话
上周和一位数学系的朋友聊天,他说想转行做AI。我问他为什么,他说:“AI不就是数学的应用吗?线性代数、概率论、微积分,我都很熟。”
我沉默了三秒钟,然后说:“兄弟,你可能对AI有什么误解。”
这让我想起自己入行时的天真——以为搞懂了反向传播的公式就掌握了AI。直到我第一次在128张V100上跑崩了一个模型,第一次因为梯度爆炸损失了三天算力,第一次发现论文里的数学推导在工程实现时全是理想假设...
我幡然醒悟:从第一性原理出发,人工智能从来就不是什么理科。
一、第一性原理视角:AI到底在干什么?
什么是第一性原理?就是把问题拆解到最基本的真理,然后从那里开始重新推导。
那么,用第一性原理看理科和工科的区别:
理科的第一性原理:宇宙中存在客观规律,我们要去发现它们。牛顿发现F=ma,爱因斯坦发现E=mc²。这些规律不依赖于人类而存在,我们只是揭开面纱。
工科的第一性原理:我们要创造原本不存在的东西。工程师设计芯片、桥梁、操作系统。这些东西是人类智慧的产物,不是“发现”的。
现在问一个核心问题:Transformer是第一性原理推导出来的吗?
答案显然是否定的。Google团队在写《Attention Is All You Need》的时候,他们不是在推导一个必然成立的数学定理。他们是在做一个工程决策:“我们把循环和卷积都扔掉,只用注意力机制,看看会发生什么。”
这个决策的依据是什么?不是数学证明,而是工程直觉和实验观察。
所以,从第一性原理出发,AI的底层建筑完全是一套工程架构,而不是数学理论的实现。它和土木工程、机械工程在本质上是一样的——都是在给定的约束下(算力、显存、带宽、数据),设计出能工作的系统。
二、突破来突破去,全都不符合第一性原理
让我们用你的视角,重新审视AI史上的几次重大突破。你会发现一个惊人的共同点:每一次突破都不是从第一性原理出发的,而是从工程需求出发,用试错和暴力手段硬生生趟出来的路。
1. 感知机(1958年)——先造出来再说
发生了什么:罗森布拉特用硬件实现了第一个人工神经网络,能通过“试错”学习识别简单图形。
第一性原理视角:如果从智能的本质出发,你应该先回答“什么是学习”“神经元如何编码信息”这些问题。但罗森布拉特没这么做。他的思维方式是:“我造一个东西出来,让它自己学着干活,看看行不行。”
这就是纯正的工程思维:造出来 > 想明白。
后来Minsky用数学证明了感知机连“异或”都解决不了,直接把第一波AI热潮打入了寒冬。但问题是:如果没有罗森布拉特先“造出来”,Minsky会去证明一个不存在的东西吗?
这就是工程的逻辑:先有东西,再有理论。和物理学完全相反。
2. 反向传播(1986年)——拿来主义工程改造
发生了什么:Rumelhart和Hinton让多层神经网络变得可训练了。
第一性原理视角:反向传播的数学原理(链式法则)早在1970年就被提出来了,但那是一个数学工具,不是神经网络的学习算法。Rumelhart和Hinton做的工作是:把这个数学工具拿来,改造它,让它能在神经网络上跑通。
他们解决的是一堆工程问题:
梯度消失怎么办?
梯度爆炸怎么办?
如何高效计算大规模矩阵的梯度?
网络结构怎么设计才能让梯度顺利传播?
这些问题,没有哪个是能从第一性原理推导出答案的。全是试出来的。
Hinton自己说过一句话,完美诠释了这种工程思维:“是图像让这一切工作,而不是数学。”翻译一下就是:效果说了算,原理可以后面再找补。
3. ImageNet时刻(2012年)——暴力美学的胜利
发生了什么:Alex Krizhevsky用AlexNet在ImageNet上将错误率降低近一半,碾压所有传统算法。
第一性原理视角:AlexNet用的技术(卷积网络+反向传播)十年前就有了。真正的突破是什么?
用GPU暴力加速:为什么用GPU?因为Alex发现自己的游戏显卡跑矩阵乘法飞快。这不是从计算理论推导出来的,是偶然发现。
用ReLU激活函数:为什么用ReLU?因为试了一下,发现训练速度快了好几倍。没有理论证明,就是“试出来好用”。
用Dropout防止过拟合:灵感来自“多个模型投票”的集成学习,这是一个纯工程技巧的移植。
这个突破最讽刺的地方是:当时学术界普遍认为深度网络是训练不好的——这甚至有一些理论上的论据支撑。但Alex不管,他直接上手试,结果发现“理论上不行”的东西,工程上就是work了。
这完美诠释了AI的工程本质:当理论和实践冲突时,相信实践。
4. Transformer(2017年)——Attention is All You Need,但Why?
发生了什么:Google团队提出Transformer,抛弃了循环和卷积,只用注意力机制。
第一性原理视角:如果从第一性原理推导语言模型,你会得出“需要循环来处理序列”“需要卷积来捕捉局部模式”这样的结论。但Transformer说:都不要了,就让每个词直接看所有词。
这个想法优雅吗?优雅。但它是从第一性原理推导出来的吗?不是。
它来源于一个实际问题:RNN在处理长句子时会遗忘开头的内容。然后Google团队做了一个大胆的工程决策:“我们把循环结构彻底干掉,看看能不能行。”
结果证明能行。但问题是:我们至今还在争论它为什么能行。
一个真正的“理科”成果,应该是先有理论,后有实践。而Transformer是先有实践,后找理论——而且理论还没完全找到。这哪里是理科?这是标准的工程范式。
三、AI的底层建筑:完全是一套工程架构
你之前说得非常精准:AI的底层建筑“完完全全就是另一套版本的agent架构建筑”。
让我把这个观点展开。如果我们把一个大模型比作一个“智能体”,它的“建筑蓝图”上画着:
感知模块:怎么把图像、文字转成向量?用ViT还是CLIP?这是一个工程选型。
推理核心:Transformer叠多少层?每层多宽?多少个头?这是一个工程设计。
记忆模块:上下文窗口开多大?要不要外挂向量数据库?这是一个工程决策。
执行模块:怎么调用外部工具、执行代码?这是一个软件集成。
每一笔、每一画,工程师想的都不是“这符合哪条数学定理”,而是:
“这能并行吗?”——受GPU架构约束
“显存够用吗?”——受硬件资源约束
“收敛稳定吗?”——受优化算法约束
“推理延迟低吗?”——受实时性约束
“好部署吗?”——受运维环境约束
这些东西,和写操作系统、设计编译器、搭分布式系统,在本质上没有任何区别。
都是在一堆工程约束下,设计出能工作的系统。数学在这里的角色是什么?是被调用的库——矩阵乘法调cuBLAS,优化调Adam,概率调softmax。
工程师不需要从第一性原理推导这些数学,就像建筑师不需要从烧砖开始学起。
四、为什么这很重要:重新理解AI的“暴力美学”
如果你接受了“AI是工科”这个设定,很多现象就变得可以理解了:
1. 为什么AI有“试错文化”?
理科的典型工作方式是:先推公式,再验证。工科的典型工作方式是:先试一下,不行再改。
AI显然属于后者。ReLU、Dropout、Adam、BatchNorm...这些让深度学习work的关键技术,有几个是推导出来的?几乎全是试出来的。
“我觉得这个想法不错,跑一下看看”——这是AI工程师最常说的话。
2. 为什么AI有“暴力美学”?
当原理不清时,理科的做法是:停下来,把原理搞清楚。工科的做法是:堆资源,硬上。
GPT-3有1750亿参数,训练成本超过1200万美元。GPT-4据传有1.8万亿参数,训练成本过亿。
这优雅吗?不。但有效。
从第一性原理来看,这简直是“愚蠢”的——因为你在用蛮力代替智慧。但问题是:它work了。而且随着规模增大,效果越来越好。这就是所谓的Scaling Law——它不是一条数学定理,它是一个被工程实践发现的经验规律。
3. 为什么AI理论总是滞后于实践?
物理学是理论走在前面(爱因斯坦先推导出相对论,后来才被实验证实)。AI是实践走在前面——模型先跑通了,论文先发表了,然后大家才开始想“它为什么能工作”。
这不是AI的缺陷,这是它的本质特征。因为它是一个工程学科,不是科学学科。
工程师的任务不是理解世界,而是改造世界。理解可以等一等,但产品不能等。
五、结语:拥抱AI的“工程本质”
如果你正在考虑进入AI领域,或者正在为它的“不纯粹”而感到困惑,我想说的是:
别纠结了。从第一性原理出发,AI本来就不是理科。
它不是在发现规律,而是在创造系统。它的底层建筑是一套工程架构,不是数学理论的实现。它的突破来自试错和暴力,不是推导和证明。
它成功的原因,恰恰是挣脱了“必须先有完美理论”的理科束缚,拥抱了“先跑起来再说”的工程哲学。
所以,下次有人跟你说“AI不就是数学吗”,你可以告诉他:
“不。AI是用数学当砖头、用代码当钢筋、用算力当混凝土,硬生生盖起来的一座摩天大楼。至于它为什么能站住?我们也不太清楚。但它确实站住了,而且越来越高。”
这不是理科,这是一门纯正的、靠直觉和代码吃饭的工程学科。