FPGA新手避坑指南：用Verilog实现SPI Flash读写，从仿真到上板全流程复盘-深圳市維司達科技有限公司

FPGA实战：从零构建SPI Flash控制器避坑全记录

第一次接触FPGA的SPI Flash控制时，我对着开发板上的M25P16芯片发呆了整整三天。数据手册上那些看似简单的时序图，在实际编码时却像迷宫一样让人晕头转向。本文将用4500字详细还原一个完整项目的开发历程，从状态机设计到板级调试，分享那些教科书不会告诉你的实战经验。

1. 理解SPI Flash的操作本质

SPI Flash芯片本质上是个需要精确"对话协议"的数字存储设备。以常见的M25P16为例，所有操作都通过四条信号线完成：

SCK：时钟信号，由FPGA主控
CS_N：片选信号，低电平有效
MOSI：主设备输出，从设备输入
MISO：主设备输入，从设备输出

1.1 关键指令解析

// 常用指令宏定义 localparam WR_EN_INST = 8'h06; // 写使能 localparam BE_INST = 8'hC7; // 整片擦除 localparam PP_INST = 8'h02; // 页编程 localparam READ_INST = 8'h03; // 连续读

页编程(Page Program)的隐藏规则：

每页256字节，跨页写入会回卷到页首
写操作前必须发送WREN指令
tPP(页编程时间)典型值3ms，需软件延时

1.2 状态机设计陷阱

初学者最容易犯的错误是状态跳转条件不完整。比如写操作流程：

IDLE → WR_EN → DELAY → PP → IDLE

实际需要增加超时保护：

always @(*) begin case(curr_state) DELAY: if(timeout || byte_cnt==4'd3) next_state = PP; else next_state = DELAY; // 其他状态... endcase end

2. 仿真环境的构建技巧

2.1 搭建SPI Flash行为模型

使用Verilog编写简单的Flash模型可以大幅提高调试效率：

reg [7:0] mem[0:16'hFFFF]; // 模拟2MB存储 always @(negedge sck) begin if(!cs_n) begin if(mosi) din = {din[6:0], mosi}; if(bit_cnt==7) begin case(op_state) CMD_PHASE: cmd <= din; ADDR_PHASE: addr <= {addr[15:0], din}; // 其他状态... endcase end end end

2.2 自动化测试方案

通过SystemVerilog的task实现批量测试：

task automatic test_sequence; input [7:0] test_data[0:255]; begin // 1. 全片擦除 send_command(BE_INST); // 2. 写入测试数据 for(int i=0; i<256; i++) write_byte(i, test_data[i]); // 3. 回读校验 for(int j=0; j<256; j++) assert(read_byte(j) == test_data[j]); end endtask

3. 硬件实现的五个关键点

3.1 时钟域处理

SPI时钟(SCK)与系统时钟的跨时钟域问题：

问题类型	解决方案	注意事项
控制信号同步	两级触发器同步	增加亚稳态分析
数据采集	SCK下降沿采样MISO	建立保持时间满足tSU/tH
频率匹配	分频产生SCK	不超过芯片最大频率(50MHz)

3.2 精确时序控制

M25P16的关键时序参数：

tSLCH (CS#低到SCK高) ≥ 5ns tCHSH (SCK高到CS#高) ≥ 5ns tSHSL (CS#高到下次低) ≥ 100ns

Verilog实现示例：

// CS#信号控制 always @(posedge clk) begin if(state == DELAY && delay_cnt == DELAY_MAX) cs_n <= 1'b0; // 满足tSHSL else if(byte_done) cs_n <= 1'b1; // 满足tCHSH end

3.3 FIFO缓冲设计

UART与SPI速率不匹配的解决方案：

// 异步FIFO配置 fifo_async #( .DATA_WIDTH(8), .DEPTH(512) ) u_fifo ( .wr_clk(spi_clk), .rd_clk(uart_clk), // 其他信号... );

深度计算：

SPI写入速率：1MHz (假设)
UART发送速率：9600bps
最大突发数据：256字节
理论最小深度 = (1e6/9600)*256 ≈ 27
实际取512留足余量

4. 板级调试的实战经验

4.1 SignalTap II调试技巧

抓取SPI总线信号的配置建议：

信号	触发条件	采样深度	备注
CS_N	下降沿	1024	捕获完整事务
SCK	关联CS_N	-	用于时序测量
MOSI/MISO	中心点采样	-	避免边沿抖动

4.2 常见故障排查

现象1：写入后读取数据全为FF

检查WREN指令是否执行
测量tPP等待时间是否足够
确认CS#信号在页编程期间保持低电平

现象2：偶发性数据错误

检查PCB走线是否等长

添加IO约束：

set_input_delay -clock [get_clocks sck] -max 2 [get_ports miso] set_output_delay -clock [get_clocks sck] -max 1 [get_ports mosi]

4.3 性能优化方案

通过流水线提升吞吐量：

// 四阶段流水线设计 enum {IDLE, CMD, ADDR, DATA} pipe_state; always @(posedge clk) begin case(pipe_state) CMD: begin if(cmd_done) begin addr_buf <= next_addr; pipe_state <= ADDR; end end // 其他状态... endcase end

最终在Cyclone IV EP4CE10上实现的性能指标：

指标	优化前	优化后
最大时钟频率	35MHz	72MHz
页编程耗时	3.5ms	2.8ms
资源占用(LEs)	1203	1587

5. 进阶设计：坏块管理与磨损均衡

虽然M25P16不支持硬件坏块管理，但可以通过软件实现：

// 坏块映射表 reg [23:0] bad_block_map[0:15]; function automatic is_bad_block; input [23:0] addr; begin for(int i=0; i<16; i++) if(addr[23:16] == bad_block_map[i][23:16]) return 1; return 0; end endfunction

磨损均衡策略：