【CDA干货】电商决策不盲目：三大数据场景直击增长痛点——场景1：ABTest建模—

案例背景与核心目标
数据获取：对接电商订单数据源
数据清洗：处理脏数据，保障分析质量
探索性数据分析（EDA）：挖掘数据核心规律
数据建模：落地三大核心业务场景
- 场景1：ABTest建模——验证促销策略效果
- 场景2：客户分群建模——RFM+K-Means用户画像
- 场景3：预测建模——CLV与营收趋势预测
案例总结

一、案例背景与核心目标

1. 业务背景

某跨境电商平台积累了10,000+订单数据（存储于StratusPredict/data/ecommerce_transactions.csv），但运营团队面临三大核心问题：

新上线的两套促销策略（满减/折扣）效果无法量化验证；
用户分层模糊，高价值用户流失、低价值用户薅羊毛问题突出；
无法预判未来营收趋势，库存和营销预算规划盲目。

2. 分析目标

基于StratusPredict的技术栈（Python 3.9+、Pandas、Scikit-learn、Prophet、Statsmodels、Streamlit），完成：

数据全链路清洗与标准化；
探索性分析挖掘用户消费规律；
落地ABTest、用户分群、预测建模三大核心场景；
输出可落地的运营洞察与决策建议。

二、数据获取：对接电商订单数据源

1. 数据源说明

核心数据源为ecommerce_transactions.csv，字段字典如下（：

列名	类型	描述
`order_id`	string	唯一订单ID
`order_date`	datetime	下单时间戳
`customer_id`	string	唯一用户ID
`revenue`	float	订单金额（USD）
`segment`	string	初始用户分群标签（未优化）
`ab_group`	string	ABTest分组（A：满减；B：折扣）

2. 数据加载代码

# 导入核心库（仓库requirements.txt已包含） import pandas as pd import numpy as np import matplotlib.pyplot as plt import plotly.express as px import statsmodels.api as sm from sklearn.cluster import KMeans from sklearn.decomposition import PCA from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import train_test_split from prophet import Prophet import streamlit as st # 设置可视化样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 加载数据（仓库数据路径） df = pd.read_csv("data/ecommerce_transactions.csv") # 查看数据基本信息 print("数据形状：", df.shape) print("\n数据前5行：") print(df.head()) print("\n数据类型：") print(df.dtypes)

三、数据清洗：处理脏数据，保障分析质量

1. 清洗核心目标

解决缺失值、异常值、重复值、日期格式不统一问题（对应仓库Architecture中「Transform & Clean」环节）。

2. 分步清洗代码

# ---------------------- 步骤1：处理缺失值 ---------------------- # 检查缺失值占比 missing_ratio = df.isnull().sum() / len(df) * 100 print("缺失值占比：") print(missing_ratio) # 缺失值处理：用户ID/订单ID缺失直接删除（核心标识），营收缺失用均值填充 df = df.dropna(subset=['order_id', 'customer_id']) df['revenue'] = df['revenue'].fillna(df['revenue'].mean()) # ---------------------- 步骤2：处理异常值 ---------------------- # 营收异常值（如负数、远超均值的极端值）：用Z-score筛选 z_scores = np.abs((df['revenue'] - df['revenue'].mean()) / df['revenue'].std()) df = df[z_scores < 3] # 保留3σ内的正常数据 # ---------------------- 步骤3：处理重复值 ---------------------- df = df.drop_duplicates(subset=['order_id']) # 按订单ID去重 # ---------------------- 步骤4：日期格式标准化 ---------------------- df['order_date'] = pd.to_datetime(df['order_date'], errors='coerce') # 转换为datetime df = df.dropna(subset=['order_date']) # 删除日期转换失败的行 # ---------------------- 清洗后验证 ---------------------- print("\n清洗后数据形状：", df.shape) print("清洗后数据描述性统计：") print(df[['revenue']].describe())

四、探索性数据分析（EDA）：挖掘数据核心规律

1. EDA核心方向

时间维度：营收/订单量的时序趋势；
用户维度：消费金额分布、复购率；
特征关联：营收与用户分组的关系。

2. 可视化EDA代码

# ---------------------- 1. 时序趋势分析：月度营收 ---------------------- df['month'] = df['order_date'].dt.to_period('M') # 提取月份 monthly_revenue = df.groupby('month')['revenue'].sum().reset_index() monthly_revenue['month'] = monthly_revenue['month'].astype(str) # 转换为字符串便于可视化 plt.figure(figsize=(12, 6)) plt.plot(monthly_revenue['month'], monthly_revenue['revenue'], marker='o', linewidth=2) plt.title('月度营收趋势', fontsize=14) plt.xlabel('月份', fontsize=12) plt.ylabel('营收（USD）', fontsize=12) plt.xticks(rotation=45) plt.grid(axis='y', alpha=0.3) plt.tight_layout() plt.show() # ---------------------- 2. 用户消费分布：营收直方图 ---------------------- fig = px.histogram(df, x='revenue', nbins=50, title='用户订单金额分布') fig.update_layout(xaxis_title='订单金额（USD）', yaxis_title='订单数') fig.show() # ---------------------- 3. 复购率分析：用户下单次数分布 ---------------------- customer_order_count = df.groupby('customer_id')['order_id'].count().reset_index() customer_order_count.columns = ['customer_id', 'order_count'] fig = px.pie(customer_order_count, names=pd.cut(customer_order_count['order_count'], bins=[0,1,3,5,10,np.inf], labels=['1单','2-3单','4-5单','6-10单','10单+']), title='用户下单次数分布') fig.show() # ---------------------- 4. AB组营收对比（初步） ---------------------- ab_revenue = df.groupby('ab_group')['revenue'].agg(['mean', 'sum']).reset_index() fig = px.bar(ab_revenue, x='ab_group', y='mean', title='AB组平均订单金额对比') fig.update_layout(xaxis_title='AB分组', yaxis_title='平均营收（USD）') fig.show()

五、数据建模：落地三大核心业务场景

场景1：ABTest建模——验证促销策略效果

1. 业务背景

通过超过100次迭代模拟A/B测试，以估算不同产品类别中提升值的分布和统计显著性。

模拟在多个电子商务产品类别中进行的单次A/B测试，以衡量转化率提升。

2 建模代码（基于Statsmodels，对应仓库notebooks/ab_testing）

2.1 客户生命周期价值建模

Section 1: 模拟设置

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from scipy.stats import norm # Set seed for reproducibility np.random.seed(42) #Number of simulations n_simulations = 100 n = 100_000 categories = ['Electronics', 'Clothing', 'Home Goods', 'Beauty', 'Toys'] base_conversion = { 'Electronics': 0.05, 'Clothing': 0.08, 'Home Goods': 0.04, 'Beauty': 0.07, 'Toys': 0.06 }

Section 2: 运行模拟

results = [] for sim in range(n_simulations): group = np.random.choice(['A', 'B'], size=n) category = np.random.choice(categories, size=n) visits = np.random.randint(50, 300, size=n) random_lift = { cat: base + np.random.normal(loc=0.01, scale=0.01) for cat, base in base_conversion.items() } # Simulate binary outcomes (1 = success, 0 = failure) conversions = [] for g, c, v in zip(group, category, visits): rate = base_conversion[c] if g == 'B': rate += (random_lift[c] - base_conversion[c]) conversions.append(np.random.binomial(v, np.clip(rate, 0, 1))) df = pd.DataFrame({'Group': group, 'Category': category, 'Visits': visits, 'Conversions': conversions}) df['Rate'] = df['Conversions'] / df['Visits'] agg = df.groupby(['Category', 'Group'])[['Visits', 'Conversions']].sum().reset_index() agg['Rate'] = agg['Conversions'] / agg['Visits'] pivot = agg.pivot(index='Category', columns='Group', values='Rate').reset_index() pivot['Sim'] = sim + 1 pivot['Lift_%'] = ((pivot['B'] - pivot['A']) / pivot['A']) * 100 pivot['StdErr_A'] = np.sqrt(pivot['A'] * (1 - pivot['A']) / agg[agg['Group'] == 'A']['Visits'].values) pivot['StdErr_B'] = np.sqrt(pivot['B'] * (1 - pivot['B']) / agg[agg['Group'] == 'B']['Visits'].values) pivot['Lift_StdErr'] = np.sqrt((pivot['StdErr_A'] / pivot['A']) ** 2 + (pivot['StdErr_B'] / pivot['B']) ** 2) * np.abs(pivot['Lift_%']) pivot['Z'] = pivot['Lift_%'] / (pivot['Lift_StdErr'] + 1e-10) # Compute one-tailed p-value from z-score pivot['p_value'] = 2 * (1 - norm.cdf(np.abs(pivot['Z']))) results.append(pivot) results_df = pd.concat(results)

Section 3: 观察到的提升百分比分布

plt.figure(figsize=(12, 6)) sns.boxplot(data=results_df, x='Category', y='Lift_%', hue='Category', palette='coolwarm', dodge=False) plt.axhline(0, linestyle='--', color='gray') plt.title("Distribution of Observed Lift % Across 100 Simulations by Category") plt.ylabel("Observed Lift (%)") plt.xlabel("Product Category") plt.tight_layout() plt.savefig('../../assets/ab_testing/ab_simulation_lift_distribution.png', bbox_inches='tight', dpi=300) plt.show()

Section 4: 带有95%置信区间的摘要表

summary = results_df.groupby('Category').agg({ 'Lift_%': ['mean', 'std'] }).reset_index() summary.columns = ['Category', 'Mean_Lift', 'StdDev'] significant = results_df[results_df['p_value'] < 0.05].groupby('Category').size() total = results_df.groupby('Category').size() summary['Pct_Significant'] = (significant / total * 100).values summary['95% CI Lower'] = summary['Mean_Lift'] - 1.96 * summary['StdDev'] summary['95% CI Upper'] = summary['Mean_Lift'] + 1.96 * summary['StdDev'] summary.style.format({ 'Mean_Lift': "{:.2f}%", 'StdDev': "{:.2f}%", '95% CI Lower': "{:.2f}%", '95% CI Upper': "{:.2f}%", 'Pct_Significant': "{:.1f}%" }).set_caption("Simulation Summary: Observed Lift Over 100 Simulations")

Section 5: 商业解读

仿真结果揭示了在既定假设条件下，统计显著差异出现的概率规律。通过观测提升幅度的分布情况，我们可以衡量实际营销活动中的预期波动范围，而置信区间则量化了结果的不确定性水平。这些洞见是制定实验策略的基石，特别是在预估所需样本量和确定可检测效应值时，能帮助我们设定切实可行的预期目标。

Section 6: 关键要点

观测到的提升幅度分布在不同类别间存在差异，部分类别持续呈现出更易检测的效应。
统计噪声可能掩盖真实差异，在小幅提升场景或非平衡样本中，这一现象尤为明显。
置信区间是对预期表现波动情况的可靠汇总指标，需向业务相关方清晰传达。

Section 7: 建议

测试启动前，设定最小可检测提升幅度与样本量的阈值。
开展大规模测试前，针对多场景可视化并模拟预期统计功效。
在将真实用户纳入实验前，借助仿真框架对各类假设条件（如方差、样本不平衡、用户分群响应）开展压力测试。

2.2 客户细分KPI分析

Section 1: 仿真测试数据

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from scipy.stats import norm # Set seed for reproducibility np.random.seed(42) n = 100_000 categories = ['Electronics', 'Clothing', 'Home Goods', 'Beauty', 'Toys'] group = np.random.choice(['A', 'B'], size=n) category = np.random.choice(categories, size=n) visits = np.random.randint(50, 300, size=n) base_conversion = { 'Electronics': 0.05, 'Clothing': 0.08, 'Home Goods': 0.04, 'Beauty': 0.07, 'Toys': 0.06 } lift = { 'Electronics': 0.02, 'Clothing': 0.01, 'Home Goods': 0.03, 'Beauty': 0.00, 'Toys': -0.01 } # Simulate binary outcomes (1 = success, 0 = failure) conversions = [] for g, c, v in zip(group, category, visits): rate = base_conversion[c] + (lift[c] if g == 'B'else 0) conv = np.random.binomial(v, np.clip(rate, 0, 1)) conversions.append(conv)

Section 2: 整合结果并计算指标

# Create summary DataFrame for display df = pd.DataFrame({'Group': group, 'Category': category, 'Visits': visits, 'Conversions': conversions}) df['Rate'] = df['Conversions'] / df['Visits'] agg_df = df.groupby(['Category', 'Group'])[['Visits', 'Conversions']].sum().reset_index() agg_df['Rate'] = agg_df['Conversions'] / agg_df['Visits'] agg_df['StdErr'] = np.sqrt(agg_df['Rate'] * (1 - agg_df['Rate']) / agg_df['Visits']) rate_pivot = agg_df.pivot(index='Category', columns='Group', values='Rate').reset_index() se_pivot = agg_df.pivot(index='Category', columns='Group', values='StdErr').reset_index() summary_df = rate_pivot.rename(columns={'A': 'Rate_A', 'B': 'Rate_B'}) summary_df['Lift_%'] = ((summary_df['Rate_B'] - summary_df['Rate_A']) / summary_df['Rate_A']) * 100 summary_df['StdErr_A'] = se_pivot['A'] summary_df['StdErr_B'] = se_pivot['B'] summary_df['Lift_StdErr'] = np.sqrt((summary_df['StdErr_A'] / summary_df['Rate_A']) ** 2 + (summary_df['StdErr_B'] / summary_df['Rate_B']) ** 2) * np.abs(summary_df['Lift_%']) # Compute z-score summary_df['Z_score'] = (summary_df['Rate_B'] - summary_df['Rate_A']) / np.sqrt( summary_df['StdErr_A']**2 + summary_df['StdErr_B']**2) # Compute one-tailed p-value from z-score summary_df['P_value'] = 2 * (1 - norm.cdf(np.abs(summary_df['Z_score'])))

Section 3: 图表1-按类别和组别的转化率

plt.figure(figsize=(10, 6)) sns.barplot(data=agg_df, x='Category', y='Rate', hue='Group', palette='Set2', errorbar=None) for i in range(len(agg_df)): row = agg_df.iloc[i] x_offset = -0.2 if row['Group'] == 'A'else 0.2 x = i // 2 + x_offset plt.errorbar(x, row['Rate'], yerr=row['StdErr'], fmt='none', ecolor='black', capsize=4) plt.title("Conversion Rate by Category and Group") plt.ylabel("Conversion Rate") plt.xlabel("Product Category") plt.ylim(0, 0.13) plt.legend(title='Group') plt.tight_layout() plt.savefig('../../assets/ab_testing/ab_single_run_conversion_rates.png', bbox_inches='tight', dpi=300) plt.show()

Section 4: 图表2-升力百分比

plt.figure(figsize=(10, 6)) colors = ['skyblue'if val >= 0 else'salmon'for val in summary_df['Lift_%']] x = np.arange(len(summary_df)) bars = plt.bar(x, summary_df['Lift_%'], color=colors, edgecolor='black', width=0.6) plt.errorbar(x, summary_df['Lift_%'], yerr=summary_df['Lift_StdErr'], fmt='none', ecolor='black', capsize=5) for i, val in enumerate(summary_df['Lift_%']): plt.text(i, val + (2 if val >= 0 else -3), f"{val:.1f}%", ha='center', va='bottom'if val >= 0 else'top') plt.axhline(0, color='gray', linestyle='--') plt.xticks(x, summary_df['Category'], rotation=45) plt.title("Lift % in Conversion Rate from Group A to B by Category") plt.ylabel("Lift (%)") plt.tight_layout() plt.savefig('../../assets/ab_testing/ab_single_run_lift_by_category.png', bbox_inches='tight', dpi=300) plt.show()

Section 5: 汇总表

pd.set_option("display.precision", 4) summary_df[['Category', 'Rate_A', 'StdErr_A', 'Rate_B', 'StdErr_B', 'Lift_%', 'Lift_StdErr', 'Z_score', 'P_value']]

本次 A/B 测试覆盖五大产品品类，旨在评估试验组（B 组）相对对照组（A 组），是否对转化率产生了显著性影响。针对每个品类，研究团队均采用比例 z 检验，以此测算转化提升幅度、统计置信度及结果显著性水平。

关键结果:

核心品类（服装、电子、家居用品）：关键结果为转化率呈显著正向增长，z 值极高且 p 值＜0.001，增长具备统计显著性；这一结果印证了试验方案对核心品类业务具有明确的正向增益价值；建议全面推广当前试验方案，进一步放大该方案对核心品类的正向增益效果。
玩具品类：关键结果为转化率出现 16.85% 的统计显著性负向降幅；该结果反映出试验方案与玩具品类的适配性不足，对其转化表现产生了实质性负面影响；建议立即暂停玩具品类的现有试验策略，重新评估并针对性优化适配该品类的营销方案。
美妆品类：关键结果为转化率仅微弱提升（约 0.002%），且 p 值 = 0.9959 未达统计显著水平，对照组与试验组无实质性转化差异；该结果大概率源于随机噪声，无法体现试验方案的实际效果；建议维持美妆品类现有营销方案，暂不基于本次测试结果调整，后续可补充样本量再次验证。

数字化时代，数据分析能力是职场的刚需技能，如果你想提升工作效率，强烈建议可以考个CDA证书，对于数据分析来说，业务分析是最重要的，所以是CDA数据分析师一级把业务分析模型作为重要考点，CDA一级从怎么采数据、清数据，到用 Excel、SQL、Python 做分析，都能学明白。学会了这些，不管是换工作做数据分析，还是在现在的岗位上帮公司做决策，都能用得上。

CDA数据分析师证书，与CPA注会、CFA特许金融师并驾齐驱，其权威性与实用性不言而喻。在互联网行业中，应用数据分析是非常适配的，该行业数据量庞大、发展快。CDA数据分析师在互联网行业的数据岗中认可度非常高，一般都要求考过CDA数据分析师二级，CDA二级中包含了模型搭建的详细内容，对于数据岗的工作来说特别有帮助。

CDA数据分析师之所以备受青睐，离不开它广泛的企业认可度。众多知名企业在招聘数据分析师时，都会明确标注CDA持证人优先考虑。像是中国联通、德勤、苏宁等大型企业，更是将CDA持证人列为重点招募对象，甚至为员工的CDA考试提供补贴，鼓励他们提升数据处理与分析能力。这足以证明，CDA证书在求职过程中，能为你增添强大的竞争力，使你从众多求职者中脱颖而出。

CDA数据分析师在银行业的数据岗中认可度非常高，一般都要求考过CDA数据分析师二级，CDA二级中包含了模型搭建的详细内容，对于数据岗的工作来说特别有帮助，一些企业可以给报销考试费。