基于大模型毕业设计：从技术选型到工程落地的完整实践指南-深圳市維司達科技有限公司

背景痛点：为什么“跑通 demo”≠“能毕业”

过去两年，我帮十几位学弟学妹看过“基于大模型”的毕业设计开题报告，发现大家踩的坑惊人地相似：

模型选择盲目——“听说 ChatGPT 很强，我就直接调 openai.Completion.create，结果老师一句‘创新点在哪’把我问住”。
部署成本失控——笔记本 6G 显存硬跑 7B 全量微调，三天后显卡风扇开始打节拍，云服务器账单 500 块瞬间蒸发。
评估指标模糊——BLEU 只有 12 却硬说“生成质量显著提升”，答辩委员反问“12 到底高还是低”，现场沉默三十秒。

归根结底，我们把“跑通 demo”当成了终点，而毕设真正的终点是“可复现、可评估、可部署”。

技术选型对比：Transformers vs vLLM vs Llama.cpp

先把结论放这儿：没有银弹，只有场景。

维度	Hugging Face Transformers	vLLM	Llama.cpp
推理速度	中等（<30 tok/s）	快（100+ tok/s，continuous batching）	极快（200+ tok/s，纯 CPU 也能跑）
显存占用	高（FP16 原模型）	中（PagedAttention 省 30-40%）	极低（4-bit 量化 3B 模型 <2G）
易用性	五星（生态全）	三星（仅推理）	两星（命令行 + C++）
适用场景	教学/实验、快速微调	线上服务、高并发	边缘设备、无 GPU

一句话总结：

想“微调+验证”用 Transformers；
想“高并发 API”用 vLLM；
想“树莓派也能跑”用 Llama.cpp。

核心实现：一个“轻量化文本生成”毕设骨架

下面给出可直接 git clone 的目录结构，代码量控制在 300 行以内，方便你在 README 写“项目地址附后”。

text_gen_bachelor/ ├── data/ │ └── raw_corpus.jsonl {"prompt": "xxx", "completion": "yyy"} ├── src/ │ ├── train_lora.py # 轻量化微调 │ ├── merge_lora.py # 合并权重 │ ├── api_server.py # FastAPI 推理服务 │ └── utils.py # 清洗、分词、脱敏 ├── scripts/ │ └── quantize.sh # 调用 llama.cpp 量化 └── tests/ └── test_api.py # 冒烟测试

1. 数据预处理：三行命令搞定

python src/utils.py \ --input data/raw_corpus.jsonl \ --output data/train.jsonl \ --max_len 512

utils.py 里就干四件事：去重、脱敏、截断、token 计数，顺便把敏感词替换成 [MASK]，省得答辩时被问“数据来源是否合规”。

2. LoRA 微调：显存 8G 就能跑 7B

python src/train_lora.py \ --model_name_or_path meta-llama/Llama-2-7b-hf \ --dataset_path data/train.jsonl \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 16 \ --max_steps 800 \ --lora_r 8 \ --lora_alpha 16 \ --fp16 \ --output_dir ./llama2-7b-lora

关键注释：

lora_r 设 8 足以让 7B 模型在 8G 显存里喘气；
max_steps 800 约等于 3 个 epoch，A100 上 20 分钟跑完，1080Ti 也能 overnight。

3. 合并权重：把 LoRA“外挂”变“内嵌”

python src/merge_lora.py \ --base meta-llama/Llama-2-7b-hf \ --lora ./llama2-7b-lora \ --out_dir ./llama2-7b-merged

合并后推理省去动态注入，延迟降 15%，方便后续转 ONNX 或 llama.cpp。

4. RESTful API：十行 FastAPI 启动

# api_server.py from fastapi import FastAPI, HTTPException from transformers import AutoTokenizer, AutoModelForCausalLM import torch, uvicorn app = FastAPI() tok = AutoTokenizer.from_pretrained("./llama2-7b-merged") model = AutoModelForCausalLM.from_pretrained( "./llama2-7b-merged", torch_dtype=torch.float16, device_map="auto" ) @app.post("/generate") def gen(req: dict): inputs = tok(req["prompt"], return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=req.get("max_tokens", 128)) return {"text": tok.decode(out[0], skip_special_tokens=True)}

把 uvicorn workers 设为 4，压测 50 并发 QPS 延迟 600 ms，足够应付答辩现场演示。

5. 边缘部署：llama.cpp 量化四步曲

# quantize.sh git clone https://github.com/ggerganov/llama.cpp cd llama.cpp python convert.py ../llama2-7b-merged ./quantize ./models/7B/ggml-model-f16.bin ./models/7B/ggml-q4_0.bin q4_0 ./main -m ./models/7B/ggml-q4_0.bin -p "中国的十大名花有" -n 128

树莓派 4B 上实测 6 token/s，毕业设计“边缘智能”章节瞬间有了。

性能与安全：别让模型一上线就被“玩坏”

Token 限流：在 api_server.py 里加asyncio.Semaphore(10)，并把单请求 max_tokens 限制 512，防止恶意刷长文。
输入过滤：用正则 + 敏感词表把政治、暴力、色情关键词直接 4xx 掉，日志记一条“illegal prompt”即可，别存原文，省得隐私合规老师找你。
版本回滚：把 merged 权重和 config 推到私有仓库，打 git tag v1.0，一旦线上乱说话，git checkout v0.9 && docker restart三十秒回滚。
日志与监控：写一条/metrics返回{"generated_tokens": 12345}，Prometheus 顺手一拉，答辩 PPT 里就能放“可观测性”关键词。

避坑指南：三个“看起来省事”其实最费事

过度依赖云端 API——外网一断，演示当场黑屏；而且 OpenAI 账单明细被导师看见，一句“科研经费不能报”直接傻眼。
忽视评估基准——只拍脑袋看“句子挺通顺”。至少加上 ROUGE-L、BERTScore，再与 LoRA 前的 baseline 做双尾 t 检验，p<0.05 才算“显著提升”。
忽略模型许可证——LLaMA 2 社区版禁止商用，你的“校园文创文案生成”若被校外公司拿去用，法务会顺着 IP 找到学校。