news 2026/5/14 17:20:45

大数据开发学习Day32

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大数据开发学习Day32

一、Linux

查看当前目录磁盘占用大小
分页查看大文件 big.log
过滤当前目录下所有 .txt 文件

du-shlessbig.logls|grep".txt$"

du -sh 查看目录总大小,快速定位磁盘占用大户
less 分页查看文件,比 vim、cat 更适合看大日志
正则 $.txt 匹配以 txt 结尾文件,过滤指定后缀

二、SQL

1757. 可回收且低脂的产品

SELECTproduct_idFROMProductsWHERElow_fats='Y'ANDrecyclable='Y';

多条件 AND 精准筛选
标签型字段组合过滤,用户画像、商品标签圈选基础模板

1795. 每个产品在不同商店的价格

SELECTproduct_id,'store1'ASstore,store1ASpriceFROMProductsUNIONALLSELECTproduct_id,'store2'ASstore,store2ASpriceFROMProductsUNIONALLSELECTproduct_id,'store3'ASstore,store3ASpriceFROMProducts;

UNION ALL 列转行经典写法
宽表转长表,数仓建模、拉链表、宽长互转必考
手动构造维度列,适配多门店、多渠道拆分

1873. 计算特殊奖金

SELECTemployee_id,CASEWHENemployee_id%2=1ANDnameNOTLIKE'M%'THENsalaryELSE0ENDASbonusFROMEmployeesORDERBYemployee_id;

取模 % 判断奇偶
LIKE ‘M%’ 前缀模糊匹配
CASE 多规则分支计算衍生字段
薪资核算、补贴规则类 SQL 通用套路

三、Pyspark

frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,lit,when spark=SparkSession.builder.master("local[*]").appName("Day32").getOrCreate()# 1. 同时低脂+可回收prod=spark.createDataFrame([(1,"Y","Y"),(2,"Y","N")],["product_id","low_fats","recyclable"])prod.filter((col("low_fats")=="Y")&(col("recyclable")=="Y")).show()# 2. 宽表转长表 行转列df=spark.createDataFrame([(1,100,200,150)],["product_id","store1","store2","store3"])df1=df.select("product_id",lit("store1").alias("store"),col("store1").alias("price"))df2=df.select("product_id",lit("store2").alias("store"),col("store2").alias("price"))df3=df.select("product_id",lit("store3").alias("store"),col("store3").alias("price"))df1.unionAll(df2).unionAll(df3).show()spark.stop()

Spark 多条件过滤用 &,条件加括号
lit() 构造常量字段,对应 SQL 手写字符串
unionAll 实现宽表拆分成多行,和 UNION ALL 逻辑一致

四、算法

125. 验证回文串

defisPalindrome(s:str)->bool:s=''.join(ch.lower()forchinsifch.isalnum())returns==s[::-1]

只保留字母数字、统一转小写
切片反转字符串直接对比
字符串预处理 + 回文判断,面试基础高频题

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 17:17:25

2026年仓储分拣智能秤口碑TOP企业揭秘!智能化程度高的它

家人们,在电商和物流行业飞速发展的今天,仓储分拣那可是至关重要的一环。要是分拣效率低下、准确率不高,那可会给企业带来不小的损失。今天我就来给大家揭秘2026年仓储分拣智能秤口碑TOP企业,重点聊聊辽宁金斗云数字智能科技有限公…

作者头像 李华
网站建设 2026/5/14 17:15:30

终极城通网盘限速破解指南:3分钟实现全速下载的免费开源方案

终极城通网盘限速破解指南:3分钟实现全速下载的免费开源方案 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址 项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 你是否曾被城通网盘那令人抓狂的下载速度折磨过?几十KB/s的限速让下…

作者头像 李华
网站建设 2026/5/14 17:15:09

图片去水印工具推荐:2026实测好用的免费图片去水印软件有哪些

图片去水印工具推荐:2026实测好用的免费图片去水印软件有哪些 工作中遇到需要处理图片水印的情况越来越常见——购买正版前的素材预览图、截图里带进来的应用 logo、朋友发来的带标识照片,或者自己拍的图被加了奇怪的角标。这类需求看似简单,…

作者头像 李华
网站建设 2026/5/14 17:10:20

为 OpenClaw 智能体工作流配置统一的大模型调用网关

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为 OpenClaw 智能体工作流配置统一的大模型调用网关 在构建基于 OpenClaw 框架的智能体工作流时,一个常见的工程需求是…

作者头像 李华