Pandas 数据聚合：分组统计与聚合函数应用-深圳市維司達科技有限公司

Pandas 数据聚合：分组统计与聚合函数应用

咱们已经并肩走过了 14 天。如果说前几天的筛选和清洗是在做“扫除”，那么今天第 15 天的数据聚合（Aggregation），就是在做“炼金”。

在架构师眼中，原始数据就像是散落在电科金仓 KingbaseES (KES) 里的散碎银两，虽然有价值，但不够壮观。只有通过聚合，把它们按维度（比如地区、时间、行为类型）揉碎了再重组，你才能看到隐藏在数字背后的业务趋势和群体特征。这就是 AI 特征工程里最核心的一环。

壹：聚合的真谛——“拆分-应用-组合”

Pandas 的聚合逻辑遵循经典的Split-Apply-Combine模型。

Split（拆分）：根据某个键（Key）把数据切成一堆小方块。
Apply（应用）：对每个小方块算个平均值、最大值或者是你自己定义的算法。
Combine（组合）：把结果重新拼成一张漂亮的报表。

这其实和咱们搞分布式架构里的MapReduce异曲同工。你要是能理解分布式计算的原理，玩转 Pandas 的groupby简直就是降维打击。

贰：实战：Conda 环境里的“数林聚义”

咱们在KES_AI_Lab环境里正式开搞。如果你在导入数据时卡住了，先确认你的驱动（ksycopg2）是不是在官方下载页面拿到的最新版。

.mean()', showing a clean output of average scores by region]

叁：核心代码：从 KES 业务表到特征画像

假设我们在电科金仓 KES 存了一张用户消费表，我们需要统计每个地区用户的平均消费、最高频率以及活跃度的波动。

# -*- coding: utf-8 -*-importksycopg2importpandasaspdimportnumpyasnpdefaggregation_lab_kes():print("--- [电科金仓] 维度聚合与特征衍生实战 ---")conn_params="dbname=test user=username password=123456 host=127.0.0.1 port=54321"try:conn=ksycopg2.connect(conn_params)# 1. 抽取业务数据 (用户ID, 业务标签, 数值指标)query="SELECT num as user_id, vcb as region, bcb as category FROM test_newtype"df=pd.read_sql(query,conn)# 模拟一些消费数据和活跃时长，这在 AI 模型中是极佳的连续型特征df['spend']=np.random.uniform(10,1000,size=len(df))df['active_hours']=np.random.randint(1,24,size=len(df))# --- 技巧 1：基础聚合 (单一维度的统计) ---# 统计每个地区的平均消费region_mean=df.groupby('region')['spend'].mean()print("\n[地区消费均值]:")print(region_mean)# --- 技巧 2：多函数聚合 (一次性搞定多个指标) ---# 这是架构师最常用的，因为效率最高agg_result=df.groupby('region').agg({'spend':['mean','max'],'active_hours':'sum','user_id':'count'# 相当于 SQL 的 COUNT(*)})# 重命名列名，让它更有“人味儿”agg_result.columns=['平均消费','最高消费','总活跃时长','用户总数']print("\n[多维度聚合报表]:")print(agg_result)# --- 技巧 3：自定义聚合 (处理复杂的业务逻辑) ---# 比如我们想看每个地区消费最高的差值 (Range)defrange_func(x):returnx.max()-x.min()custom_agg=df.groupby('category')['spend'].apply(range_func)print("\n[自定义业务逻辑 - 消费极差]:")print(custom_agg)conn.close()returnagg_resultexceptExceptionase:print(f"聚合计算过程中链路抖动:{e}")if__name__=="__main__":aggregation_lab_kes()

肆：架构师的碎碎念：聚合中的“分寸感”

在深耕 AI 的这些年，我见过太多把groupby玩坏的案例。
有人喜欢把所有的维度都揉在一起做一个巨大的透视表，结果导致内存直接原地爆炸。

从人文的角度看，聚合其实是一种**“舍得”**。为了看到整体的趋势，你必须舍弃掉个体数据的琐碎。一个优秀的架构师知道什么时候该保留细节（微服务、单行记录），什么时候该抽象总结（聚合报表、全局画像）。

我们在使用电科金仓 KES 时，有些统计可以在数据库端通过GROUP BY完成（利用索引加速）；而有些涉及到复杂非线性变换的，则适合放在 Pandas 里。这种**“算力分配”的艺术**，才是资深架构师的真功夫。

结语

今天咱们学会了怎么把散沙聚成塔。但数据不仅仅有横向的类别，还有纵向的时间。

既然聊到聚合，需要我帮你写一个基于“时间窗口”的滚动聚合（Rolling Window Aggregation）脚本吗？这在处理 KES 里的实时金融交易或设备监控数据时是标配。

2000-2023年上市公司碳排放量测算原始数据+stata代码

在“双碳”目标（碳达峰、碳中和）已成为国家战略的背景下，企业的碳排放表现成为环境经济学、绿色金融及企业管理等领域的研究热点本数据基于上市公司年报，参考陈小蓓(2021)、孔婷婷 (2024)）的测算逻辑，构建…

李华

驾驭数据洪流：深入解析 TensorFlow Data API 的核心机制与高阶实践

好的，遵照您的要求，这是一篇关于 TensorFlow Data API 的深度技术文章，旨在为开发者提供超越基础用法的深入见解和实践指南。驾驭数据洪流：深入解析 TensorFlow Data API 的核心机制与高阶实践在机器学习项目中，我们…

李华

与学习相关的技巧(Batch Normalization)

Batch Normalization 在上一节，我们观察了各层的激活值分布，并从中了解到如果设定了合适的权重初始值，则各层的激活值分布会有适当的广度，从而可以顺利地进行学习。那么，为了使各层拥有适当的广度，“强制…

李华

车机系统触控界面自动化测试实践

车机系统（车载信息娱乐系统）作为现代汽车的核心组件，集成导航、媒体播放、车辆控制等功能，其触控界面的稳定性和响应速度直接影响驾驶安全与用户体验。自动化测试能显著提升效率，减少手动重复劳动，并确保界…

李华

毕设项目分享深度学习yolo11电动车骑行规范识别系统（源码+论文）

文章目录0 前言1 项目运行效果2 课题背景2.1. 城市交通发展现状2.2. 电动车交通安全问题2.2.1 事故频发现状2.2.2 监管难点分析2.3. 技术发展背景2.3.1 计算机视觉技术进步2.3.2 智能交通系统发展2.4. 项目研究意义4.1 理论价值2.4.2 实践价值2.5. 国内外研究现状2.5.1 国际研究…

李华

openplc runtime REST API 参考( 英--＞中)

openplc runtime REST API 参考( 英—>中) 概述 OpenPLC Runtime v4 提供了一个内部 REST API，通过 HTTPS 协议提供服务，供 OpenPLC Editor 桌面应用程序使用。该 API 并非设计为供最终用户直接交互，但可用于高级集成或诊断。所有端点均可通过 https://<主机>:…

李华