RML2016.10a数据集实战：从数据加载到模型输入的完整处理流程-深圳市維司達科技有限公司

1. RML2016.10a数据集初探

第一次接触RML2016.10a数据集时，我和大多数研究者一样，面对这个.pkl文件有点无从下手。这个由GNU Radio生成的数据集包含了11种调制信号（8种数字调制+3种模拟调制），总计22万个样本，每个样本都是2×128的IQ数据。在实际项目中，我发现它特别适合做自动调制识别(AMR)任务的基准测试。

数据集最有趣的特点是它的"不完美"——包含了真实场景中常见的各种干扰：从-20dB到18dB的信噪比变化、频率选择性衰落、载波频率偏移等。这些特性使得用它训练出的模型更具实用价值。我后来在项目中对比过，在这个数据集上表现好的模型，在实际硬件测试中往往也更稳定。

2. 数据加载的坑与技巧

2.1 解决编码问题

第一次尝试用pickle加载数据时，我就遇到了经典的编码错误：

import pickle # 错误示范（千万别这样） with open('RML2016.10a_dict.pkl', 'rb') as f: data = pickle.load(f) # 报错：UnicodeDecodeError

经过反复测试，发现必须指定encoding='latin-1'才能正确读取。这是因为数据集是用Python 2.x生成的，而我们现在大多用Python 3.x环境。正确的加载方式应该是：

with open('RML2016.10a_dict.pkl', 'rb') as f: data = pickle.load(f, encoding='latin-1')

2.2 数据结构解析

加载成功后，data变量实际上是一个嵌套字典。通过打印几个键值对，我发现它的结构是这样的：

{ ('QPSK', 2): numpy.ndarray(shape=[1000, 2, 128]), ('8PSK', -4): numpy.ndarray(shape=[1000, 2, 128]), ... }

每个键是一个元组(调制类型, 信噪比)，对应的值是1000个样本的IQ数据。这种结构虽然紧凑，但直接用于模型训练还需要进一步处理。

3. 数据预处理全流程

3.1 数据重组与标签生成

原始数据结构不适合直接输入模型，我们需要将其转换为(样本, 标签)对。我的处理方案是：

import numpy as np X = [] # 样本容器 y = [] # 标签容器 mods = sorted(list({k[0] for k in data.keys()})) # 所有调制类型 snrs = sorted(list({k[1] for k in data.keys()})) # 所有信噪比 for mod in mods: for snr in snrs: samples = data[(mod, snr)] for i in range(samples.shape[0]): X.append(samples[i]) # 每个样本形状(2,128) y.append(mods.index(mod)) # 调制类型索引作为标签 X = np.array(X) # 形状变为(N,2,128) y = np.array(y) # 形状变为(N,)

3.2 分层抽样策略

原始论文的随机划分方式会导致各类别比例失衡。我推荐使用sklearn的分层抽样：

from sklearn.model_selection import train_test_split # 保持各类别比例一致 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, stratify=y, random_state=42)

如果需要验证集，可以二次划分：

X_train, X_val, y_train, y_val = train_test_split( X_train, y_train, test_size=0.2, stratify=y_train, random_state=42)

3.3 数据归一化处理

IQ信号的幅度差异可能影响模型训练。我通常采用逐样本归一化：

def normalize_iq(sample): # sample形状(2,128) iq_amplitude = np.sqrt(sample[0]**2 + sample[1]**2) return sample / np.max(iq_amplitude) X_train = np.array([normalize_iq(x) for x in X_train]) X_test = np.array([normalize_iq(x) for x in X_test])

4. 模型输入格式适配

4.1 CNN输入处理

对于CNN模型，我习惯将IQ两路作为通道维度：

# 转换为(N,2,128,1)四维张量 X_train_cnn = np.expand_dims(X_train, axis=-1) X_test_cnn = np.expand_dims(X_test, axis=-1)

4.2 LSTM输入处理

LSTM更适合处理序列数据，可以直接使用原始形状：

# 保持(N,2,128)形状 # 其中2是特征维度(I和Q)，128是时间步长 X_train_lstm = X_train X_test_lstm = X_test

4.3 标签one-hot编码

最后别忘了将类别标签转换为one-hot格式：

from keras.utils import to_categorical y_train_onehot = to_categorical(y_train, num_classes=len(mods)) y_test_onehot = to_categorical(y_test, num_classes=len(mods))