news 2026/6/20 20:20:18

MYSQL-窗口函数学习总结

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MYSQL-窗口函数学习总结

窗口函数不是将数据汇总成单个结果,而是为每一行数据都返回一个结果。

完整的窗口函数的定义:

window_function over(partition by...-- 分区参数 order by... -- 排序参数 frame_clause -- 窗口大小 );

以下代码所用数据集在之前的文章中可以找到。

select name , dept_id,sum(salary) over(partition by dept_id) from emp; select dept_id ,sum(salary) from emp group by dept_id; -- order by 用于指定分区内的数据的排序方式,作用类似于查询语句中的order by 子句。 select name ,salary, dept_id,sum(salary) over(partition by dept_id order by salary) from emp;

聚合窗口函数

移动平均值:avg 函数作为窗口函数使用时,可以用于计算随着当前行移动的窗口内数据行的平均值。例,查找不同产品截止每个月,最近三个月的平均销量。

create table sales_monthly( product varchar(10), ym int, amount int ); insert into sales_monthly values ('橘子',201801,10128),('橘子',201802,10221),('橘子',201803,10257),('橘子',201804,10386),('橘子',201805,11400),('橘子',201806,10566),('橘子',201807,10623),('橘子',201808,10697),('苹果',201801,10118),('苹果',201802,10211),('苹果',201803,10247),('苹果',201804,10286),('苹果',201805,11410),('苹果',201806,10565),('苹果',201807,10633),('苹果',201808,10687); select product as '产品', ym '年月', amount '销量', avg(amount) over (partition by product order by ym rows between 2 preceding and current row) as '平均销量 ' from sales_monthly order by product, ym; -- 当前平均值取的是当前日期和前两天的平均值。

也可更改为,当前日期为中间值

select product as '产品', ym '年月', amount '销量', avg(amount) over (partition by product order by ym rows between 1 preceding and 1 following) as '平均销量 ' from sales_monthly order by product, ym;
当不指定时,就是累计结果。
select product as '产品', ym '年月', amount '销量', avg(amount) over(partition by product order by ym) as '平均销量 ' from sales_monthly order by product,ym;

range关键字为单位指定窗口的偏移量。比如 查找短期内(5天)累计转账超过100万元的账号:

select log_ts,from_user,total_amount from ( select log_ts,from_user,sum(amount) over ( partition by from_user order by log_ts range interval '5' day preceding) as total_amount from transfer_log where type = '转账') t where total_amount >=1000000;

排名窗口函数

可以用来获取数据的分类排名。 常见的排名窗口函数如下:
row_number :函数可以为分区中的每行数据分配一个序列号,序列号从1开始。
rank :函数返回当前行在分区中的名次。如果存在名次相同的数据,后续的排名将会产生跳跃。
dense_rank: 函数返回当前行在分区中的名次。即使存在名次相同的数据,后续排名也是连续值。
percent_rank :函数以百分比的形式返回当前行在分区中的名次。如果存在名次相同的数据,后续的排名将会产生跳跃。
cume_dist :函数计算当前行在分区内的积累分布。
ntile:函数将分区内的数据分为N等分,并返回当前行所在分片的位置。
排名窗口函数不支持动态的窗口大小选项,而是以整个分区作为分析的窗口。

排名窗口函数不支持动态的窗口大小选项,而是以整个分区作为分析的窗口。

select name,dept_id,salary, row_number() over (partition by dept_id order by salary desc), rank() over (partition by dept_id order by salary desc), dense_rank() over (partition by dept_id order by salary desc), percent_rank() over (partition by dept_id order by salary desc) from emp; -- 可以用Window 封装 为 w window w as (partition by dept_id order by salary desc); (要在后面定义。) select name,dept_id,salary, row_number() over w, rank() over w, dense_rank() over w, percent_rank() over w from emp window w as (partition by dept_id order by salary desc);

cume_dist 函数返回当前行在分区内的累积分布,也就是排名在当前行之前(包含当前行)所有数据所占的比率,取值范围大于0且小于或等于1.

-- ;例如 查询返回所有员工按照月薪排名的累积分布情况: select name '姓名',salary, cume_dist() over( order by salary) '累计占比' from emp;

ntile 函数用于将分区内的数据分成N等分,并计算当前行所在的分片位置。

-- 例,以下语句将员工按照入职先后顺序分为5组,并计算每个员工所在的分组; select name '姓名',entrydate , ntile(5) over (order by entrydate) from emp;

取值窗口函数

lag函数返回窗口内当前行之前的第N行数据;
lead函数可以返回窗口内当前行之后的第N行数据。
first_value 返回窗口内第一行数据。
last_value 返回窗口内最后一行数据。

nth_value 返回窗口内第N行数据。

-- 案例分析:环比、同比分析 -- 环比是本期与上期数据相比的增长,例,产品6月的销量与五月的销量相比增加的部分; select product,ym,(amount-pre_amount)/pre_amount delta from( select * ,lag(amount,1) over (partition by product order by ym) pre_amount from sales_monthly) t; -- 同比增长 今年6月和 上一年6 月的销售相比增长的部分。lag(amount,12)当数据中每个月份的数据都有时,该字段表示当前月份之前第12期的销量,即去年同月份的销量 -- 复合增长率 每一期和第一期作比较

LAG(column, n, default_value)中的n表示向前第n行,default_value指定无数据时的默认值(如0或NULL)。

三类核心窗口函数对比

类别核心函数核心作用关键特点典型应用场景
聚合窗口函数SUM(),AVG(),COUNT(),MAX(),MIN()在窗口内进行聚合计算,不折叠行OVER()联用,将聚合结果“铺展”到每一行明细上。计算累计值、移动平均值、每组内占比。
排名窗口函数ROW_NUMBER(),RANK(),DENSE_RANK(),NTILE(n)为窗口内每一行生成序号或排名ORDER BY子句必不可少,决定了排序和排名依据。生成连续序号、并列排名、数据分箱(如分为上中下三组)。
取值窗口函数LAG(),LEAD(),FIRST_VALUE(),LAST_VALUE(),NTH_VALUE()访问窗口内其他行的值。实现了行与行之间的直接对话,是计算环比、同比的基础。

总结

  1. 灵魂在于OVER()子句:定义PARTITION BY(分组)和ORDER BY(排序)是写出正确窗口函数的关键。

  2. 性能关键:在PARTITION BYORDER BY涉及的列上建立索引,能极大提升执行效率。

  3. 组合使用:窗口函数可以组合。例如,可以先计算累计值(聚合函数),再对累计值进行排名。

    SELECT *, RANK() OVER (ORDER BY cumulative_amount DESC) FROM ( SELECT *, SUM(amount) OVER (PARTITION BY employee_id ORDER BY sale_date) AS cumulative_amount FROM sales ) t;
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 16:52:09

基于Django的房屋信息可视化及价格预测系统,附源码!

在毕设选题中,房产相关的内容也是一个很不错的题目,比如房屋信息可视化及价格预测系统。在房地产市场中,信息的透明度和数据的准确性对于买家、卖家以及投资者至关重要。本项目结合了Django框架和先进的数据分析技术,旨在提供详尽…

作者头像 李华
网站建设 2026/6/17 14:08:50

国产工业时序数据库—DolphinDB的技术突破与实践优势

1. 工业数字化转型的“数据焦虑”随着工业物联网(IIoT, Industrial Internet of Things)浪潮的全面深入,全球制造业正经历一场深刻的数字化转型(Digital Transformation)。数以亿计的传感器和智能设备被部署到生产一线…

作者头像 李华
网站建设 2026/6/18 12:36:02

POCO分布式锁深度解析:Redis实战性能与ZooKeeper理论对比

POCO分布式锁深度解析:Redis实战性能与ZooKeeper理论对比 【免费下载链接】poco The POCO C Libraries are powerful cross-platform C libraries for building network- and internet-based applications that run on desktop, server, mobile, IoT, and embedded …

作者头像 李华
网站建设 2026/6/18 8:06:42

Node-RED Dashboard终极指南:从零构建专业级数据可视化平台

Node-RED Dashboard是一个功能强大的开源数据可视化工具包,专为Node-RED用户设计,让您能够快速构建专业级的数据仪表板。无论您是物联网开发者、数据分析师还是系统管理员,都能通过这个工具轻松创建直观的数据展示界面。 【免费下载链接】nod…

作者头像 李华
网站建设 2026/6/19 21:54:21

掌机玩家的终极解决方案:HandheldCompanion让Windows掌机焕发新生

掌机玩家的终极解决方案:HandheldCompanion让Windows掌机焕发新生 【免费下载链接】HandheldCompanion ControllerService 项目地址: https://gitcode.com/gh_mirrors/ha/HandheldCompanion 还在为Windows掌机的兼容性问题而烦恼吗?HandheldCompa…

作者头像 李华
网站建设 2026/6/18 19:03:29

告别碎片化学习:dedao-gui助你打造个人知识管理系统

告别碎片化学习:dedao-gui助你打造个人知识管理系统 【免费下载链接】dedao-gui wails go vue3 实现得到已购课程下载的桌面客户端 项目地址: https://gitcode.com/gh_mirrors/de/dedao-gui 还在为得到APP中的优质课程内容无法离线学习而烦恼吗&#xff1f…

作者头像 李华