Python大数据毕设实战：从数据采集到分布式处理的完整链路构建-深圳市維司達科技有限公司

Python大数据毕设实战：从数据采集到分布式处理的完整链路构建

摘要：许多学生在完成Python大数据毕设时，常陷入“Demo能跑、规模一扩就崩”的困境——单机脚本无法处理GB级数据、缺乏容错机制、部署流程混乱。本文基于真实毕设场景，提供一套可落地的技术方案：使用PySpark进行分布式计算，结合Airflow调度任务，通过Parquet优化存储，并集成日志监控。读者将掌握如何构建高吞吐、低内存占用且可复现的大数据处理流水线，显著提升毕设工程化水平与答辩竞争力。

1. 毕设常见“翻车”现场：性能瓶颈与架构缺陷

做毕设最怕什么？不是选题，而是“跑不动”。下面几种场景，几乎年年在答辩教室门口循环播放：

内存溢出：Pandas一口气读进10 GB CSV，笔记本16 GB内存瞬间飙红，系统开始疯狂交换，风扇声盖过老师提问。
无状态管理：每次重跑脚本都要“从头再来”，中间结果没落地，一旦报错前功尽弃，调试全靠print。
不可复现：同一份代码，在室友电脑上跑出不同结果，路径写死、随机种子没设、依赖版本对不上，Git仓库形同虚设。
单机思维：把Spark当“大Pandas”用，全程collect()回Driver，集群资源空转，Driver OOM（OutOfMemory）依旧。
部署混乱：答辩前夜还在scpjar包，手动nohup挂起，日志四散，老师一句“重启试试”直接社死。

这些问题的根因，往往是从第0行代码就假设“数据永远只有几十MB”。毕设要拿高分，必须把“规模感”写进架构。

2. 技术选型：Pandas vs Dask vs PySpark

维度	Pandas	Dask	PySpark
单机内存	受限于单机RAM	可溢出到磁盘	分布式聚合
集群横向扩展	（但易撞墙）	（原生）
容错 & 推测执行	部分
学习曲线	最平缓	中等	略陡，但文档全
生态集成	丰富	一般	企业级（Hive、Iceberg、Delta）

结论：

数据<1 GB且特征工程简单，Pandas最快；
1–5 GB、节点≤3台，Dask能顶；
一旦上10 GB或需要多步Join/聚合，直接PySpark最省心。

毕设场景通常“数据量可大可小”，但评委最爱问“如果数据再翻100倍怎么办？”——一句话，选Spark最保险。

3. 实战：PySpark + Airflow 完整链路

下面以“京东手机评论情感分析”毕设为例，演示从原始JSON到建模特征的全流程。代码已脱敏，可在三节点YARN集群复现。

3.1 环境准备

创建独立conda环境，锁定Python 3.10、Spark 3.4、Airflow 2.7
统一Hadoop配置放到$HADOOP_CONF_DIR，避免硬编码namenode地址
把JAVA_HOME、PYSPARK_PYTHON写进$AIRFLOW_HOME/airflow.cfg，保证Worker进程能拉到相同解释器

3.2 数据清洗与特征提取

# clean_extract.py from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.ml.feature import RegexTokenizer, StopWordsRemover def build_spark(): return (SparkSession.builder .appName("jd_comment_etl") .config("spark.sql.adaptive.coalesce.parallelism", "200") # 自动小文件合并 .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .getOrCreate()) def clean(spark, input_path, output_path): df = spark.read.json(input_path) # 1. 过滤无效记录 df = df.filter(F.col("comment").isNotNull() & (F.length(F.col("comment")) > 5)) # 2. 去重 df = df.dropDuplicates(["sku_id", "user_id", "comment"]) # 3. 分词 tokenizer = RegexTokenizer(inputCol="comment", outputCol="words", pattern="\\W") df = tokenizer.transform(df) # 4. 停用词 remover = StopWordsRemover(inputCol="words", outputCol="filtered") df = remover.transform(df) # 5. 持久化Parquet，snappy压缩，按sku分区 (df.write .mode("overwrite") .partitionBy("sku_id") .option("compression", "snappy") .parquet(output_path)) if __name__ == "__main__": spark = build_spark() clean(spark, "hdfs://cluster/jd/raw/", "hdfs://cluster/jd/clean/") spark.stop()

要点：

全程DataFrame API，比RDD更易优化；
先过滤再Shuffle，减少网络IO；
分区列选suk_id，后续按商品聚合时可直接裁剪目录。

3.3 Airflow DAG：让任务可重试、可监控

# dags/jd_etl.py from airflow import DAG from airflow.providers.spark.operators.spark_submit import SparkSubmitOperator from datetime import datetime default_args = { "depends_on_past": False, "retries": 2, "retry_delay": 300, } with DAG("jd_comment_etl", default_args=default_args, start_date=datetime(2024, 3, 1), schedule_interval="@daily", catchup=False) as dag: clean_task = SparkSubmitOperator( task_id="clean_extract", application="${AIRFLOW_HOME}/dags/scripts/clean_extract.py", name="jd_clean", conf={"spark.sql.shuffle.partitions": "400"}, executor_memory="4g", driver_memory="2g") train_task = SparkSubmitOperator( task_id="train_model", application="${AIRFLOW_HOME}/dags/scripts/train_sentiment.py", name="jd_train", conf={"spark.sql.shuffle.partitions": "200"}, executor_memory="6g") clean_task >> train_task

Airflow把“重跑”做成按钮，一键回到任意历史日期；同时每个Task日志自动集中，答辩演示时可直接打开Web UI，老师秒懂。

4. 存储与性能：Parquet、分区与冷启动

4.1 序列化格式对比

指标	CSV	Parquet
体积	100 %	25 %（snappy）
Schema 演化
列式裁剪
压缩切分

实测：3.2 GB CSV → 0.8 GB Parquet，后续读取只加载comment与label两列，I/O下降70 %。

4.2 分区策略

低基数（<500类别）直接partitionBy；
高基数考虑Bucket或Z-排序，防止小文件爆炸；
每个分区大小控制在128 MB–1 GB，避免NameNode压力。

4.3 冷启动 & 资源利用率

Spark on YARN第一次提交会拉包、申请容器，30 s+很正常。把spark.yarn.archive提前上传到HDFS，并开启spark.dynamicAllocation.enabled，可将后续延迟压到10 s内。毕设答辩演示时，先跑一次热身，正式demo就不会尴尬卡壳。

5. 生产环境避坑指南

依赖隔离：
- conda-pack打tar包，随任务上传；
- 禁止“pip install”写在代码里，确保版本可追踪。
任务幂等：
- 写结果表用overwriteDynamic或insert into partition前先truncate.spark_catalog.db.table；
- 时间戳+业务主键做脏数据清理，重跑不翻倍。
日志追踪：
- Spark日志通过log4j.properties重定向到yarn logs，Airflow侧只保留stdout 1000行；
- 关键指标（输入条数、输出条数、空值率）写进statsd，Grafana一张图就能定位。
小文件治理：
- 在DAG尾部加spark.sql.adaptive.coalesce.enabled=true；
- 每周离线hdfs dfs -mv+insert overwrite合并。
安全与权限：
- 毕设数据常含用户昵称，提前hash(salt+user_id)脱敏；
- 开启ranger或hdfs acl，防止同组同学误删目录。