后量子密码学HQC解密技术及GMD软判决解码优化-深圳市維司達科技有限公司

1. 后量子密码学与HQC解密技术背景

量子计算的发展对传统公钥密码体系构成了严峻挑战。基于大整数分解和离散对数问题的RSA、ECC等算法，在量子计算机的Shor算法面前将变得不堪一击。为应对这一威胁，美国国家标准与技术研究院(NIST)于2016年启动了后量子密码学(PQC)标准化进程，经过多轮评估，Hamming准循环码(HQC)因其出色的安全性和实现效率被选为第四轮最终候选方案。

HQC属于基于编码的密码系统，其安全性建立在解码随机线性码的困难性上。与主流的LWE-based方案不同，HQC采用了两级编码结构：内层为(128,8)Reed-Muller(RM)码，外层为(nRS,kRS)Reed-Solomon(RS)码。这种设计使得HQC在保持较高安全强度的同时，具有相对较小的公钥尺寸和较快的加解密速度，特别适合物联网等资源受限场景。

在HQC解密流程中，核心难点在于对含噪码字的高效解码。传统硬判决解码器直接将接收信号量化为二进制值，损失了大量信道可靠性信息。而软判决解码则能利用这些附加信息，显著提升解码成功率。研究表明，采用广义最小距离(GMD)软判决解码器，可将HQC-128的RS码字长度从46缩减至36，同时降低20%的延迟和15%的硬件面积。

2. HQC解密系统架构与编解码原理

2.1 HQC整体加解密流程

HQC的密钥生成过程首先选择两个稀疏多项式x,y ∈ R = GF(2)[X]/(X^n-1)作为私钥，公钥则为(u,v)=(hx+y,x)，其中h是系统参数。加密时，消息经过RM和RS两级编码后，与随机生成的噪声向量相加形成密文。解密过程则包含三个关键步骤：

多项式乘法与减法：计算c' = v - uy
RM解码：对c'的低mnRMnRS位进行Hadamard变换解码
RS解码：将RM解码输出作为软信息输入GMD解码器

特别值得注意的是，HQC采用了一种创新的软信息生成机制。mnRMnRS位的c'被分为nRS段，每段再划分为m组nRM比特。通过将每组中的"1"/"0"映射为+1/-1并累加，生成nRM个整数值作为FHT的输入。这种设计巧妙地保留了信道可靠性信息。

2.2 两级编解码结构参数

HQC根据安全级别λ(128/192/256)采用不同的编码参数：

安全级别λ	RM码	重复次数m	RS码	素数n
128	(128,8)	3	(46,16)→(36,16)	17669→13829
192	(128,8)	5	(56,24)	35851
256	(128,8)	5	(90,32)	57637

表中展示了采用GMD解码后的参数优化效果。以HQC-128为例，RS码长从46降至36，相应素数n从17669减小到13829，密钥尺寸缩减22%。这种优化主要源于GMD解码更充分地利用了RM解码输出的可靠性信息。

3. GMD软判决解码原理与实现

3.1 传统RS解码方案比较

在HQC场景下，RS解码器主要面临三种实现选择：

硬判决解码：仅利用符号硬判决结果，可纠正t=(nRS-kRS)/2个错误。采用标准Berlekamp-Massey算法实现，硬件复杂度最低但解码失败率(DFR)较高。
擦除解码：将2t个最不可靠符号标记为擦除。虽然能纠正全部擦除位置错误，但当错误超出擦除集时必然失败。文献[15]采用此方案，DFR改善有限。
GMD解码：执行t+1次测试向量解码，第i次试验擦除2i个最不可靠符号。通过多试验协同，既能纠正擦除位置错误，又能处理部分非擦除位置错误，实现最优的DFR性能。

图1对比了三种方案在HQC-128下的DFR表现。当nRS=36时，GMD解码的DFR比擦除解码低两个数量级，比硬判决解码低五个数量级，充分证明了其优势。

3.2 GMD解码算法细节

GMD解码的核心思想是通过构建多个测试向量来探索解码空间。具体流程如下：

可靠性排序：根据FHT输出的max1值对所有符号进行可靠性排序
多试验解码：
- 试验0：标准错误解码（0擦除）
- 试验1：擦除2个最不可靠符号
- ...
- 试验t：擦除2t个最不可靠符号（即全擦除解码）
结果选择：选择首个通过Chien搜索验证的解码结果

这种分级处理机制使得GMD能动态适应不同的错误模式。当少量错误集中在不可靠符号时，早期试验即可成功；当错误分布较分散时，后期试验通过减少需纠正的错误数来提高成功率。

关键洞见：在HQC环境下，RM解码提供的max1值具有严格的单调性，这与传统通信系统中基于SNR的软信息有本质区别。这种特性使GMD能更精确地识别错误位置。

4. 硬件架构优化设计

4.1 整体解码器架构

图2展示了优化的GMD解码器硬件架构，主要包含五个功能模块：

伴随式计算：2t个并行有限域乘法累加单元
关键方程求解器(ePIBM)：折叠系数为3的增强型并行BM架构
擦除添加单元：基于Wu算法的6并行多项式更新引擎
多项式选择器：3并行Chien搜索架构
幅度计算：改进的Horiguchi-Kötter公式实现

这种架构通过精细的流水线设计和资源复用，在面积和延迟间取得平衡。特别地，擦除添加单元采用了一种创新的缩放技术，避免了关键路径上的额外乘法器。

4.2 关键优化技术

ePIBM折叠架构：传统并行BM架构需要2t+1个处理单元，面积开销大。我们采用折叠系数为3的设计，通过时分复用将处理单元减少到⌈(2t+1)/3⌉个，仅增加少量延迟。测试表明，这种折衷在HQC-128场景下最为理想。

Wu算法硬件实现：算法1的硬件映射面临两个挑战：(1)多项式更新中的数据依赖；(2)有限域乘法的高延迟。图3所示的架构通过以下创新解决这些问题：

采用MSB-first的串行处理顺序，允许流水线执行
引入αi缩放因子，将临界路径乘法移出关键路径
共享BiΛ(i)(X)和ΛiB(i)(X)的中间计算结果

自适应调度策略：图4展示了计算任务的精细调度方案。擦除添加与多项式选择采用2:1的流水线比例，确保各单元利用率最大化。具体而言：

擦除添加：每试验124周期（6并行）
Chien搜索：每试验12周期（3并行）
幅度计算：36周期（全展开）

这种调度使得整个GMD解码能在268个周期内完成，相比传统串行实现加速3.8倍。

5. 性能评估与对比

5.1 实现结果

在GlobalFoundries 22FDX工艺下综合实现，关键指标如下：

模块	通用乘法器	常数乘法器	加法器	寄存器	延迟(周期)
伴随式计算	0	20	20	20	36
ePIBM	14	7	28	56	60
擦除添加	36	30	18	20	124
多项式选择	0	63	20	56	12
幅度计算	5	0	21	1	36
总计	55	120	87	153	268

5.2 对比分析

表III比较了三种解码方案在HQC-128下的整体表现：

指标	本方案(GMD)	擦除解码[15]	硬判决[12,13]
RS码	(36,16)	(40,16)	(46,16)
密钥长度(bits)	13829(0.78x)	15361(0.87x)	17669(1x)
逻辑面积(μm²)	6908	6412	6523
总等效门数	39190(0.85x)	41518(0.90x)	46359(1x)
总延迟(周期)	8265(0.80x)	9005(0.87x)	10309(1x)