时间序列预测实战：从M5竞赛看零售销量预测的挑战与策略-深圳市維司達科技有限公司

1. 零售销量预测的挑战与M5竞赛背景

我第一次接触零售销量预测是在2020年参加M5竞赛的时候。这个由沃尔玛发起的竞赛已经举办了五届，是时间序列预测领域的标杆赛事。当时拿到数据集的第一反应是：这也太复杂了吧！3049种商品、10家店铺、5年的日粒度数据，还要预测未来28天的销量。

零售销量预测最大的特点就是数据稀疏性。你可能想象不到，在真实零售数据中，零值能占到多大比例。我做过一个统计，在家居用品类别中，平均每天有超过30%的商品销量为零。这种稀疏性给建模带来了巨大挑战——传统的时序模型如ARIMA在这种场景下表现往往不尽如人意。

另一个头疼的问题是外部事件干扰。节假日、促销活动、甚至天气变化都会显著影响销量。在M5数据中，光是节假日就有四种类型：宗教节日、文化活动、国家纪念日和体育赛事。更麻烦的是，有些节假日每年日期不固定（比如美国的感恩节），而像"黑色星期五"这样的大促日甚至没有在日历表中明确标注。

提示：处理零售数据时，建议先用热力图分析每周销售规律。我在分析德克萨斯州家居用品数据时发现，周末销量比工作日高出近40%，这个规律对后续特征工程非常关键。

2. 数据探索与特征工程实战

2.1 数据清洗与转换

原始数据的存储方式很特别——每天的销量以d_1,d_2这样的列名排列。我首先用melt函数将其转换为长格式，这是时序建模的标准操作。这里有个坑要注意：某些商品在早期根本没有销售记录，需要根据价格表首次出现的日期进行裁剪。

# 数据转换示例 df = pd.melt(sales_df, id_vars=['item_id','store_id'], var_name='d', value_name='qty') df['d'] = df['d'].str.extract('(\d+)').astype(int)

2.2 关键特征构建

根据参赛经验，这几个特征对提升模型效果最明显：

价格特征：除了常规的当前价格，我还计算了：
- 价格动量：(当前价格-昨日价格)/昨日价格
- 月度平均价格
- 年度价格波动率
时间特征：将日期拆解成年、月、周、日等维度后，最重要的是加入"是否周末"这个二值特征。在我的实验中，仅这一项就能降低3%的RMSE。
滞后特征：这是时序预测的核心。我不仅加入了前1-28天的销量滞后项，还计算了滑动窗口统计量：

# 滞后特征生成 for i in range(1, 29): df[f'lag_{i}'] = df.groupby(['item_id','store_id'])['qty'].shift(i) # 滑动窗口特征 window_sizes = [7, 14, 30] for w in window_sizes: df[f'rolling_mean_{w}'] = df.groupby(['item_id','store_id'])['qty']\ .transform(lambda x: x.rolling(w).mean())

3. 建模策略与调优技巧

3.1 模型选择与融合

M5竞赛的优胜方案大多采用模型融合策略。我测试了三种主流Boosting算法：

模型	优点	缺点
XGBoost	处理数值特征效率高	对类别特征支持较弱
LightGBM	训练速度快，支持直方图算法	在小数据集容易过拟合
CatBoost	自动处理类别特征，鲁棒性强	训练时间较长

最终我采用了分层融合策略：先用三个基模型分别预测，再将预测结果作为新特征输入到随机森林进行二次建模。这种方法相比简单的平均融合，在验证集上提升了约2%的效果。

3.2 贝叶斯优化实战

调参是模型优化的关键环节。传统网格搜索在超参多时效率太低，我改用Optuna进行贝叶斯优化。这里分享一个CatBoost调参的模板：

def objective(trial): params = { 'iterations': trial.suggest_int('iterations', 500, 2000), 'depth': trial.suggest_int('depth', 4, 10), 'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.3), 'l2_leaf_reg': trial.suggest_loguniform('l2_leaf_reg', 1e-3, 10.0), } model = CatBoostRegressor(**params, silent=True) cv_scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error') return np.sqrt(-cv_scores.mean()) study = optuna.create_study() study.optimize(objective, n_trials=50)