人工智能根本不是理科？聊聊这个被误读了70年的“工科怪物”-深圳市維司達科技有限公司

从第一性原理出发，你会发现AI的底层建筑完全是另一套东西

引子：一次让我陷入沉思的对话

上周和一位数学系的朋友聊天，他说想转行做AI。我问他为什么，他说：“AI不就是数学的应用吗？线性代数、概率论、微积分，我都很熟。”

我沉默了三秒钟，然后说：“兄弟，你可能对AI有什么误解。”

这让我想起自己入行时的天真——以为搞懂了反向传播的公式就掌握了AI。直到我第一次在128张V100上跑崩了一个模型，第一次因为梯度爆炸损失了三天算力，第一次发现论文里的数学推导在工程实现时全是理想假设...

我幡然醒悟：从第一性原理出发，人工智能从来就不是什么理科。

一、第一性原理视角：AI到底在干什么？

什么是第一性原理？就是把问题拆解到最基本的真理，然后从那里开始重新推导。

那么，用第一性原理看理科和工科的区别：

理科的第一性原理：宇宙中存在客观规律，我们要去发现它们。牛顿发现F=ma，爱因斯坦发现E=mc²。这些规律不依赖于人类而存在，我们只是揭开面纱。
工科的第一性原理：我们要创造原本不存在的东西。工程师设计芯片、桥梁、操作系统。这些东西是人类智慧的产物，不是“发现”的。

现在问一个核心问题：Transformer是第一性原理推导出来的吗？

答案显然是否定的。Google团队在写《Attention Is All You Need》的时候，他们不是在推导一个必然成立的数学定理。他们是在做一个工程决策：“我们把循环和卷积都扔掉，只用注意力机制，看看会发生什么。”

这个决策的依据是什么？不是数学证明，而是工程直觉和实验观察。

所以，从第一性原理出发，AI的底层建筑完全是一套工程架构，而不是数学理论的实现。它和土木工程、机械工程在本质上是一样的——都是在给定的约束下（算力、显存、带宽、数据），设计出能工作的系统。

二、突破来突破去，全都不符合第一性原理

让我们用你的视角，重新审视AI史上的几次重大突破。你会发现一个惊人的共同点：每一次突破都不是从第一性原理出发的，而是从工程需求出发，用试错和暴力手段硬生生趟出来的路。

1. 感知机（1958年）——先造出来再说

发生了什么：罗森布拉特用硬件实现了第一个人工神经网络，能通过“试错”学习识别简单图形。

第一性原理视角：如果从智能的本质出发，你应该先回答“什么是学习”“神经元如何编码信息”这些问题。但罗森布拉特没这么做。他的思维方式是：“我造一个东西出来，让它自己学着干活，看看行不行。”

这就是纯正的工程思维：造出来 > 想明白。

后来Minsky用数学证明了感知机连“异或”都解决不了，直接把第一波AI热潮打入了寒冬。但问题是：如果没有罗森布拉特先“造出来”，Minsky会去证明一个不存在的东西吗？

这就是工程的逻辑：先有东西，再有理论。和物理学完全相反。

2. 反向传播（1986年）——拿来主义工程改造

发生了什么：Rumelhart和Hinton让多层神经网络变得可训练了。

第一性原理视角：反向传播的数学原理（链式法则）早在1970年就被提出来了，但那是一个数学工具，不是神经网络的学习算法。Rumelhart和Hinton做的工作是：把这个数学工具拿来，改造它，让它能在神经网络上跑通。

他们解决的是一堆工程问题：

梯度消失怎么办？
梯度爆炸怎么办？
如何高效计算大规模矩阵的梯度？
网络结构怎么设计才能让梯度顺利传播？

这些问题，没有哪个是能从第一性原理推导出答案的。全是试出来的。

Hinton自己说过一句话，完美诠释了这种工程思维：“是图像让这一切工作，而不是数学。”翻译一下就是：效果说了算，原理可以后面再找补。

3. ImageNet时刻（2012年）——暴力美学的胜利

发生了什么：Alex Krizhevsky用AlexNet在ImageNet上将错误率降低近一半，碾压所有传统算法。

第一性原理视角：AlexNet用的技术（卷积网络+反向传播）十年前就有了。真正的突破是什么？

用GPU暴力加速：为什么用GPU？因为Alex发现自己的游戏显卡跑矩阵乘法飞快。这不是从计算理论推导出来的，是偶然发现。
用ReLU激活函数：为什么用ReLU？因为试了一下，发现训练速度快了好几倍。没有理论证明，就是“试出来好用”。
用Dropout防止过拟合：灵感来自“多个模型投票”的集成学习，这是一个纯工程技巧的移植。

这个突破最讽刺的地方是：当时学术界普遍认为深度网络是训练不好的——这甚至有一些理论上的论据支撑。但Alex不管，他直接上手试，结果发现“理论上不行”的东西，工程上就是work了。

这完美诠释了AI的工程本质：当理论和实践冲突时，相信实践。

4. Transformer（2017年）——Attention is All You Need，但Why？

发生了什么：Google团队提出Transformer，抛弃了循环和卷积，只用注意力机制。

第一性原理视角：如果从第一性原理推导语言模型，你会得出“需要循环来处理序列”“需要卷积来捕捉局部模式”这样的结论。但Transformer说：都不要了，就让每个词直接看所有词。

这个想法优雅吗？优雅。但它是从第一性原理推导出来的吗？不是。

它来源于一个实际问题：RNN在处理长句子时会遗忘开头的内容。然后Google团队做了一个大胆的工程决策：“我们把循环结构彻底干掉，看看能不能行。”

结果证明能行。但问题是：我们至今还在争论它为什么能行。

一个真正的“理科”成果，应该是先有理论，后有实践。而Transformer是先有实践，后找理论——而且理论还没完全找到。这哪里是理科？这是标准的工程范式。

三、AI的底层建筑：完全是一套工程架构

你之前说得非常精准：AI的底层建筑“完完全全就是另一套版本的agent架构建筑”。

让我把这个观点展开。如果我们把一个大模型比作一个“智能体”，它的“建筑蓝图”上画着：

感知模块：怎么把图像、文字转成向量？用ViT还是CLIP？这是一个工程选型。
推理核心：Transformer叠多少层？每层多宽？多少个头？这是一个工程设计。
记忆模块：上下文窗口开多大？要不要外挂向量数据库？这是一个工程决策。
执行模块：怎么调用外部工具、执行代码？这是一个软件集成。

每一笔、每一画，工程师想的都不是“这符合哪条数学定理”，而是：

“这能并行吗？”——受GPU架构约束
“显存够用吗？”——受硬件资源约束
“收敛稳定吗？”——受优化算法约束
“推理延迟低吗？”——受实时性约束
“好部署吗？”——受运维环境约束

这些东西，和写操作系统、设计编译器、搭分布式系统，在本质上没有任何区别。

都是在一堆工程约束下，设计出能工作的系统。数学在这里的角色是什么？是被调用的库——矩阵乘法调cuBLAS，优化调Adam，概率调softmax。

工程师不需要从第一性原理推导这些数学，就像建筑师不需要从烧砖开始学起。

四、为什么这很重要：重新理解AI的“暴力美学”

如果你接受了“AI是工科”这个设定，很多现象就变得可以理解了：

1. 为什么AI有“试错文化”？

理科的典型工作方式是：先推公式，再验证。工科的典型工作方式是：先试一下，不行再改。

AI显然属于后者。ReLU、Dropout、Adam、BatchNorm...这些让深度学习work的关键技术，有几个是推导出来的？几乎全是试出来的。

“我觉得这个想法不错，跑一下看看”——这是AI工程师最常说的话。

2. 为什么AI有“暴力美学”？

当原理不清时，理科的做法是：停下来，把原理搞清楚。工科的做法是：堆资源，硬上。

GPT-3有1750亿参数，训练成本超过1200万美元。GPT-4据传有1.8万亿参数，训练成本过亿。

这优雅吗？不。但有效。

从第一性原理来看，这简直是“愚蠢”的——因为你在用蛮力代替智慧。但问题是：它work了。而且随着规模增大，效果越来越好。这就是所谓的Scaling Law——它不是一条数学定理，它是一个被工程实践发现的经验规律。

3. 为什么AI理论总是滞后于实践？

物理学是理论走在前面（爱因斯坦先推导出相对论，后来才被实验证实）。AI是实践走在前面——模型先跑通了，论文先发表了，然后大家才开始想“它为什么能工作”。

这不是AI的缺陷，这是它的本质特征。因为它是一个工程学科，不是科学学科。

工程师的任务不是理解世界，而是改造世界。理解可以等一等，但产品不能等。

五、结语：拥抱AI的“工程本质”

如果你正在考虑进入AI领域，或者正在为它的“不纯粹”而感到困惑，我想说的是：

别纠结了。从第一性原理出发，AI本来就不是理科。

它不是在发现规律，而是在创造系统。它的底层建筑是一套工程架构，不是数学理论的实现。它的突破来自试错和暴力，不是推导和证明。

它成功的原因，恰恰是挣脱了“必须先有完美理论”的理科束缚，拥抱了“先跑起来再说”的工程哲学。

所以，下次有人跟你说“AI不就是数学吗”，你可以告诉他：

“不。AI是用数学当砖头、用代码当钢筋、用算力当混凝土，硬生生盖起来的一座摩天大楼。至于它为什么能站住？我们也不太清楚。但它确实站住了，而且越来越高。”

这不是理科，这是一门纯正的、靠直觉和代码吃饭的工程学科。

人工智能根本不是理科？聊聊这个被误读了70年的“工科怪物”

引子：一次让我陷入沉思的对话

一、第一性原理视角：AI到底在干什么？

二、突破来突破去，全都不符合第一性原理

1. 感知机（1958年）——先造出来再说

2. 反向传播（1986年）——拿来主义工程改造

3. ImageNet时刻（2012年）——暴力美学的胜利

4. Transformer（2017年）——Attention is All You Need，但Why？

三、AI的底层建筑：完全是一套工程架构

四、为什么这很重要：重新理解AI的“暴力美学”

1. 为什么AI有“试错文化”？

2. 为什么AI有“暴力美学”？

3. 为什么AI理论总是滞后于实践？

五、结语：拥抱AI的“工程本质”

Qwen3.5-9B-GGUF惊艳效果：256K原生上下文真实长文档生成

SAP CPI实战：手把手教你用RFC适配器把SAP数据暴露成REST API（附Postman测试）

别再让SysTick偷走电量！深入FreeRTOS Tickless源码，看它如何“欺骗”系统时钟

Python字节码逆向实战：从CTF题解到手动反编译技巧

扩散模型原来是一个“魔法恒等式“拆成了两半

别再死记硬背了！用Python的NumPy和SciPy手把手实现CR、LU、QR分解（附代码对比）