时间序列分析：异常检测与缺失值处理实战-深圳市維司達科技有限公司

1. 时间序列分析基础与核心挑战

时间序列分析是处理按时间顺序记录的数据集合的科学方法。与横截面数据不同，时间序列数据点之间存在天然的时间依赖关系，这使得分析过程既充满机遇又面临独特挑战。在电力负荷预测、气象监测、股票市场分析等领域，时间序列分析已成为不可或缺的技术手段。

1.1 时间序列的核心特性

典型的时间序列数据呈现三种核心特征：

趋势成分：反映数据的长期变化方向，可能是线性增长、指数衰减或其他复杂模式。例如，电力消耗数据可能呈现逐年上升趋势，反映经济发展和人口增长。
季节成分：固定周期内的重复模式，如每日用电高峰、季度性温度变化等。ECL数据集中的电力负荷就表现出明显的24小时周期特性。
随机噪声：无法用趋势和季节解释的随机波动，通常假设为平稳过程。

实际工程中，我们常用加法模型 X_t = T_t + S_t + R_t 或乘法模型 X_t = T_t × S_t × R_t 进行分解，其中T代表趋势，S代表季节，R代表残差。选择哪种模型取决于季节波动的幅度是否与趋势水平相关。

1.2 数据质量的关键挑战

原始时间序列数据往往存在两类典型问题：

异常值问题：传感器故障、传输错误或极端事件导致的数据点明显偏离正常范围。在电力数据中，一个异常高压读数可能是电表瞬态故障所致。
缺失值问题：数据采集中断、存储失败等原因造成记录空白。例如气象站可能因设备维护丢失数小时的风速记录。

这些问题若不妥善处理，将导致：

统计量估计偏差（如均值、方差）
模型参数估计失真
预测结果出现系统性误差

2. 异常值检测的工程实践

2.1 滚动统计量方法

静态阈值法（如全局3σ原则）难以适应非平稳时间序列。我们采用滚动窗口计算局部统计量：

2.1.1 滚动IQR方法

# Python实现示例 def rolling_iqr_detection(series, window=24, alpha=1.5): q1 = series.rolling(window).quantile(0.25) q3 = series.rolling(window).quantile(0.75) iqr = q3 - q1 lower_bound = q1 - alpha * iqr upper_bound = q3 + alpha * iqr outliers = (series < lower_bound) | (series > upper_bound) return outliers

窗口选择：对于日周期数据，通常取24（小时）或168（周）点
α参数：1.5对应约0.7%的异常率（正态分布假设下）
适用场景：中等强度季节性数据，对非正态分布鲁棒

2.1.2 滚动Z-Score方法

def rolling_zscore_detection(series, window=24, threshold=3): med = series.rolling(window).median() mad = 1.4826 * series.rolling(window).apply(lambda x: np.median(np.abs(x - np.median(x)))) z = (series - med).abs() / mad return z > threshold

MAD系数：1.4826使估计器与正态分布σ一致
优势：对重尾分布更稳健，适合金融、电力等尖峰数据

2.2 检测策略选择原则

方法	最佳场景	优点	缺点
滚动IQR	中等季节性	不受分布限制	需合理设置窗口
滚动Z-Score	强噪声数据	统计理论基础强	对极端值敏感
百分位法	稳定过程	直观易解释	不适应趋势变化

实际项目中，我常采用"两级检测"策略：先用IQR快速筛选，再对可疑点用Z-Score复核。在ECL数据集分析中，这使异常检出准确率提升约18%。

3. 缺失值处理的专业方案

3.1 分段感知插值法

传统全序列插值会模糊局部特征。我们采用基于语义分割的插值：

def segment_aware_interpolation(series, missing_ranges): cleaned = series.copy() for (start, end) in missing_ranges: left_val = series.iloc[start-1] if start > 0 else np.nan right_val = series.iloc[end+1] if end < len(series)-1 else np.nan if not np.isnan(left_val) and not np.isnan(right_val): # 线性插值 interp_values = np.linspace(left_val, right_val, end-start+1) cleaned.iloc[start:end+1] = interp_values elif not np.isnan(left_val): # 前向填充 cleaned.iloc[start:end+1] = left_val else: # 后向填充 cleaned.iloc[start:end+1] = right_val return cleaned

3.2 处理策略对比

方法	数学表达	适用场景	注意事项
线性插值	x̂_t = x_a + (t-a)/(b-a)·(x_b - x_a)	平稳过渡段	不适用于剧烈波动区域
季节调整填充	x̂_t = x_{t-s} + (x_{t-s+1} - x_{t-s})	强季节性数据	需准确知道周期s
状态空间填充	基于Kalman滤波预测	高噪声系统	计算复杂度高

在电力负荷预测项目中，我们发现：

对于短时缺失（<1小时），线性插值效果最佳（MAPE 2.3%）
长时缺失（>6小时）时，结合季节性和趋势的STL分解填充更优（MAPE 4.7%）

4. 集成预测的高级策略

4.1 权重优化算法

我们开发了温度调节的逆损失加权方案：

计算每个模型m_i的验证损失s_i
计算原始权重：w̃_i = (s_i + ε)^(-β)
温度调节：w_i = w̃_i^(1/τ) / Σ w̃_j^(1/τ)
加入收缩项：w_i = (1-λ)clip(w_i, w_min, w_max) + λ/k

def calculate_weights(validation_losses, beta=1, tau=1, lambda_=0.1): epsilon = 1e-8 raw_weights = np.power(validation_losses + epsilon, -beta) tempered = np.power(raw_weights, 1/tau) normalized = tempered / np.sum(tempered) # 应用收缩和截断 w_min, w_max = 0.05, 0.8 clipped = np.clip(normalized, w_min, w_max) return (1 - lambda_) * clipped + lambda_ / len(validation_losses)

4.2 鲁棒聚合技术

当模型间分歧较大时，采用次序统计量方法：

def robust_ensemble(predictions, rho=0.1): """ predictions: (n_models, n_timepoints) """ sorted_pred = np.sort(predictions, axis=0) k = predictions.shape[0] lower = int(np.floor(rho * k)) upper = k - lower return np.mean(sorted_pred[lower:upper], axis=0)

在ECL数据集上的对比结果：

简单平均：MAE 423.16
最优加权：MAE 393.83
10%修剪平均：MAE 381.47

5. 可视化与诊断体系

5.1 多视图诊断面板

我们构建了四位一体的分析视图：

原始序列视图：叠加异常点标记和缺失段高亮
分解视图：STL分解展示趋势、季节、残差
自相关视图：ACF/PACF分析记忆长度
预测对比视图：模型预测区间可视化

def plot_diagnostic_panel(series, anomalies=None, forecasts=None): fig = plt.figure(figsize=(15, 10)) # 原始序列 ax1 = fig.add_subplot(221) ax1.plot(series.index, series.values, label='Raw') if anomalies is not None: ax1.scatter(anomalies.index, anomalies.values, c='r', label='Anomalies') # STL分解 ax2 = fig.add_subplot(222) res = STL(series, period=24).fit() res.plot(ax=ax2) # ACF/PACF ax3 = fig.add_subplot(223) plot_acf(series, ax=ax3, lags=40) ax4 = fig.add_subplot(224) plot_pacf(series, ax=ax4, lags=40) plt.tight_layout()