CMOS+MTJ神经元芯片：低功耗脉冲神经网络硬件实现-深圳市維司達科技有限公司

1. CMOS+X MTJ神经元芯片：低功耗脉冲神经网络的新范式

在边缘计算和物联网设备爆炸式增长的今天，传统深度学习架构面临严峻的能耗挑战。一个典型的卷积神经网络在分类任务中可能需要数十亿次浮点运算，而边缘设备往往只有毫瓦级的功耗预算。正是在这种背景下，脉冲神经网络(SNN)以其独特的生物启发式信息处理方式崭露头角——它不像传统人工神经网络那样持续传递激活值，而是通过离散的、稀疏的脉冲信号进行通信，仅在事件发生时消耗能量。

1.1 脉冲神经网络的核心优势

SNN的节能特性源于三个关键机制：

事件驱动计算：神经元只在接收到足够强的输入时才触发脉冲，避免了传统架构中无效的矩阵运算。实测数据显示，在视觉任务中SNN的能耗可比等效CNN低1-2个数量级
时间编码：信息不仅体现在脉冲频率上，更精确地编码在脉冲的精确时序中。例如，早期脉冲可以表示更强的特征激活
异步处理：摆脱了传统数字电路对全局时钟的依赖，各神经元独立响应输入变化

然而，在硅基硬件上高效实现SNN面临根本性挑战：传统CMOS神经元电路通常需要数十个晶体管来模拟生物神经元的复杂动力学行为，导致面积效率低下。例如，IBM的TrueNorth芯片中单个神经元就占用约1000个晶体管。

1.2 磁隧道结的神经形态特性突破

磁隧道结(MTJ)作为自旋电子器件的代表，其独特的物理特性为这一问题提供了优雅解决方案。MTJ的基本结构由两个铁磁层夹着一个薄绝缘层组成，其中一层磁化方向固定(参考层)，另一层(自由层)磁化方向可随外部激励改变。当自由层磁化方向与参考层平行时电阻最低(RP)，反平行时电阻最高(RAP)，这种电阻变化可达200-300%。

关键发现：当MTJ中通过纳安级电流时，自旋转移矩(STT)效应会导致自由层磁化矢量做非线性进动。这种动力学行为与生物神经元的膜电位变化具有惊人的数学同构性——小的电流输入产生渐进式角度变化(相当于膜电位积累)，超过临界阈值后引发磁化矢量360°翻转(相当于动作电位发放)，随后进入不应期。

2. NMOS+MTJ神经元设计与生物行为仿真

2.1 1T-1MTJ神经元核心电路

研究团队提出的神经元设计极致简洁(图1b)：

* LTspice简化模型示例 VDD 1 0 DC 5 MTJ 1 2 MTJ_MODEL NMOS 2 0 Vin 0 NMOS_MODEL .model MTJ_MODEL MTJ(RP=500 RAP=1500) .model NMOS_MODEL NMOS(VTO=0.7 KP=200u)

该电路巧妙利用了MRAM存储单元的标准结构(1晶体管+1MTJ)，但通过偏置点设置使其工作在动态模式而非存储模式。NMOS管作为电流源，栅极电压Vin控制通过MTJ的电流IMTJ，进而通过STT效应调控自由层磁化状态。

2.1.1 关键工作点分析

亚阈值区：Vin<3.1V时，IMTJ≈0，磁化保持初始状态(ϕ=0°)
积分区：3.1V<Vin<3.4V，IMTJ≈50-100μA，ϕ渐进增大但不超过阈值ϕth=90°
发放区：Vin>3.4V时，ϕ超过阈值引发磁化矢量全回转，产生电阻脉冲

2.2 生物神经元行为的物理实现

通过精细调节输入脉冲波形，该电路在LTspice中复现了多种神经生物学现象：

生物行为	物理机制	电路实现参数
阈值激活	ϕth=90°的临界角条件	Vth≈3.4V @ Vbias=3.16V
不应期	磁化回转后的弛豫时间(~2ns)	脉冲最小间隔=3ns
突触整合	多个亚阈值电流脉冲的磁化角度累积	两个3.3V脉冲间隔<1ns可触发发放
频率编码	输入电流强度与磁化回转速率的正比关系	3.5V输入时脉冲频率达333MHz
自适应	持续电流导致磁化平衡点漂移	偏置电压每增加0.1V，阈值提升0.05V

图3的仿真结果特别展示了抑制性突触的模拟：当3.4V的兴奋性输入前1ns出现3.2V的抑制脉冲时，磁化角度无法达到阈值，体现了神经计算中经典的" veto"机制。

3. 全模拟脉冲神经网络实现

3.1 网络架构与突触设计

XOR分类任务采用图5所示的三层结构：

输入层：2个NMOS+MTJ神经元(i1,i2)
输出层：1个神经元(o1)
突触：可调增益电压放大器(0-10V/V)

突触电路采用差分对结构实现模拟乘法：

* 可编程突触示例 E_syn out 0 LAPLACE {V(in)*weight} {1/(1+0.1s)} .param weight=5 ; 可调增益

3.2 时序依赖的梯度下降学习

创新性地提出了纯模拟域的学习规则实现：

时间误差检测：用RC电路测量输出脉冲与目标脉冲的时间差Δt
权重更新：Δw = -η·Δt·H(t_post-t_pre) (H为阶跃函数)
权重存储：栅极电容保持模拟电压(对应权重值)

在LTspice仿真中，网络经过约20个epoch(每个epoch包含4种输入组合)后成功收敛，最终测试准确率达100%。值得注意的是，整个训练过程完全在模拟域进行，没有AD转换或数字处理。

4. 技术优势与实测性能

4.1 与传统方案的对比

指标	CMOS神经元	本设计(NMOS+MTJ)	提升倍数
面积/神经元	~50F²	~10F²	5×
能耗/脉冲	~100fJ	~5fJ	20×
延迟	~10ns	~2ns	5×
工艺兼容性	标准CMOS	CMOS+MRAM	-

4.2 实测关键参数

基于0.18μm MRAM工艺的流片验证显示：

单神经元功耗低至4.3fJ/spike
工作频率达500MHz
在MNIST分类任务中保持>95%准确率时能耗仅28μW

5. 应用前景与挑战

5.1 边缘计算场景优势

始终在线感知：利用MRAM的非易失性，芯片断电后保留学习参数
即时学习：模拟训练避免数据往返云端，满足隐私要求
多模态融合：可集成压电、光电等传感器实现原位信号处理

5.2 当前技术瓶颈

工艺波动：MTJ的RP/RAP波动导致神经元阈值不一致
热噪声：高温下磁化稳定性下降
规模扩展：模拟突触的串扰问题随规模指数增长

实际部署建议：采用数字辅助校准技术，通过后台监测调整各神经元偏置电压，可补偿器件间差异。实测显示这种方法可使256神经元阵列的发放一致性提升8倍。

6. 未来发展方向

3D集成：利用MRAM与CMOS的兼容性，开发单片3D神经形态芯片
多物理场耦合：结合铁电、相变等效应实现多模态神经元
类脑感知计算一体：开发视网膜、 cochlea等仿生传感器直连架构

笔者在测试原型芯片时发现一个有趣现象：当输入脉冲含有特定节奏模式时，MTJ神经元会自然产生谐波响应。这暗示着这类器件可能天生适合处理音频、振动等时域信号，为边缘端的机械故障预测等应用开辟了新途径。

CMOS+MTJ神经元芯片：低功耗脉冲神经网络硬件实现