news 2026/4/23 11:34:09

大模型本地部署全攻略 | 从零开始,手把手教你搭建自己的AI助手(VLLM教程)| 程序员必收藏

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型本地部署全攻略 | 从零开始,手把手教你搭建自己的AI助手(VLLM教程)| 程序员必收藏

本文详细介绍了AI大模型的本地化部署方法,以VLLM框架为例。推荐使用AutoDL算力云服务器作为部署环境,因其价格便宜且已配置好所需环境。文章讲解了创建虚拟环境、配置VLLM框架、从魔搭社区下载开源模型以及运行模型的完整流程,通过具体步骤指导读者成功部署并调用大模型,适合零基础小白学习。


目前开源大模型的一大优势就是,它可以本地化部署,只要你的显卡硬件配置能满足要求,你可以在自己的本地部署属于自己的大模型,不用担心数据泄露等问题。下面康师傅将从部署设备、部署架构、部署模型,带大家初步尝试AI大模型的本地化部署,本篇以VLLM为例进行介绍。


1.部署设备

AI大模型的部署环境其实比较复杂,比如Anaconda、CUDA、CUDNN、pytorch、python等各种环境,,配置起来很容易出错,如果在自己的电脑上进行配置,会有各种报错,同时会影响你自己电脑的使用。这里康师傅建议各位尝试租赁使用云服务器,推荐两种方式:

1.1阿里、腾讯等云服务器

大品牌,价格也不贵,根据不同的模型部署框架,根据它的安装要求,进行云服务器环境配置,如下图所示:

但这种有一些不太方便的,这些云服务器配置起来也不方便,得从头到尾配置一遍,而且他最低也是以“天”为单位,对我们初始学习来说,太贵了。

1.2AutoDL算力云服务器

这个服务器本人强烈推荐,最适合小白刚开始上手的时候练习了。一方面价格便宜,4090的显卡(此处建议大家直接选择4090,因为现在很多框架对算力的要求都提升了,不如直接选个4090),租赁一小时只需要2.4元;

另一方面,他可以帮你配置好大模型正常需要的环境配置,如pytorch、python、CUDA等,如下图所示:

选择好按量计费-基础环境后,点击创建开机后,即可使用该服务器。

1.3远程连接VS code

选择好云服务器后,为了方便我们后面使用python代码编写和项目管理,我们使用vs-code,其提供了有图形界面的远程开发环境-SSH,同时提供接口转发功能,适合开发经验为0的小白使用,点击下载即可。

安装好后,需要进行2步操作:

安装中文包

在扩展里搜索“Chinese”,选择搜索项的第一个,安装后软件将自动显示为简体中文模式。

安装远程服务

vscode有一个很大的便捷是,提供了SSH,让远程连接百年的更加简洁,特别是针对小白。在扩展项里搜索“Remote”,点击安装后,首页会出现“远程资源管理器”入口。

点击“远程资源管理器”,出现管理界面,然后点击“+”添加完成服务器,在SSH连接命令中,输入刚刚AutoDL中租赁服务器的登录指令,复制后粘贴。

选择本机中的config配置文件

右下角点击连接

输入AutoDL租赁服务器中的密码,回车进入

点击“打开文件夹”输入“root”,进入服务器根目录

进入,可以看到当前的服务器概况介绍,这里说数据盘为“/root/autodl-tmp”,建议大家后续实操的时候,将数据文件放在这个目录下面。这个时候服务器基本就配置好了。


2.部署架构

前面讲过,目前AI大模型的主要部署框架有3个:ollama、vllm、lmdeploy。ollama主要是针对个人用户,这里康师傅就不演示了,有兴趣的同学可以自己搜索了部署试一试。我这里就先演示vllm和lmdeploy两种。

2.1vllm中文文档

我们使用某一个部署框架时,一定要先去看它的中文文档,比如vllm,一般直接搜索“vllm中文文档”,点击进入后可以查看部署要求和运行方法。

2.2创建虚拟环境

每个大模型部署框架所需要的环境配置不一样,因此针对每个大模型框架,建议对应的创建一个虚拟环境,python版本选择3.12.我这里使用命令创建一个名为“vllm”的虚拟环境:conda create -n vllm python=3.12 -y。

查看配置环境:conda env list,用该命令查看虚拟环境是否配置好。这里可以看到,除了base环境,我还有一个vllm虚拟环境。

激活虚拟环境:source activate vllm,此时的环境变换为“vllm”

2.3配置vllm

如果是NVIDIA的GPU,那么可以直接使用pip来进行安装,输入命令“pip install vllm”。下载的东西比较多,大概需要10-20min,过程如图所示:

安装vllm后,界面如下图所示,warning可以忽略


3.部署模型

开源模型有2个下载的地方,一个为国外的huggingface平台,上面的模型很全,国外模型的更新速度也很快,但是国内没有访问权限,需要科学上网;另一个就是国内的魔搭社区,是国内阿里巴巴推出的开源AI模型社区,这里面主流的模型也有,我这里以魔搭社区-DeepSeek1.5B模型为例:

3.1安装modelscope

安装魔搭社区里的模型,首先需要魔搭社区的modelscope,直接在终端输入命令:pip install modelscope

下载成功后如图所示:

3.2选择对应的模型,进行SDK下载

这里以DeepSeek1.5B模型为例,在魔搭社区的模型库里搜索“DeepSeek”,选择其中的1.5B模型,点击后进入模型下载页面,选择SDK下载,复制其中的代码:

选择SDK下载模式,复制其中的代码:

在云服务器的数据盘里,新建一个“LLM”文件夹,专门用来存放模型,同时,在根目录下,新建一个“download.py”文件,将刚刚复制的代码复制进去,这里需要注意的是,model_dir里,是直接缓存到云服务器上,我们后面需要使用该模型,所以在模型后面增加一个“catch_dir”,制定下载路径,这里我把模型下载到我刚刚新建的LLM文件夹下。

保存download.py文件,cd进入该文件所在目录,执行该py文件,在命令行输入“pip download.py”,则开始下载刚刚选择的DeepSeek1.5B模型。这里需要注意的是,魔搭社区里,模型下载完成后,他的successfully提示不是在最下面,而是在中间,如果有Download model ‘deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B’ successfully提示,则该模型下载完成。

点击LLM文件夹,可以看到有2个AI文件,这两个模型文件一模一样,使用其中一个就行。

3.3运行模型

模型下载后,可以利用vllm模型部署框架加载并运行模型。vllm里面模型的运行比较简单,就是vllm serve 模型的绝对路径。我这里就是“vllm serve /root/autodl-tmp/.autodl/LLM/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B”,此时可以看到,模型已经后台开始运行,本地的端口号为8000.

此时,新建一个终端,通过一个多轮对话的python文件,调用这个DeepSeek1.5B模型,具体命令为python run 文件名称。

这里需要注意的是,python文件里的端口号需要改成vllm里的8000,另一个,虽然本地模型其实是没有apikey的,但是框架是要求必须有,所以这里随便写一个就行。

文件调用成功后,输入你的文件,大模型会给你它的think过程以及最后的输出结果:

如图所示,这里我问他请介绍下他自己,大模型给了我具体的思考过程以及最终的回答。

以上,就是以vllm部署框架的大模型调用,其实也比较简单,大家有空可以试一试,亲手操作一下,练完了,记得将autodl的云服务器关闭,要不然会一直扣费。


​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 16:19:12

可视化图解算法74:最小花费爬楼梯

1.题目 描述 给定一个整数数组 cost ,其中 cost[i]是从楼梯第i 个台阶向上爬需要支付的费用,下标从0开始。一旦你支付此费用,即可选择向上爬一个或者两个台阶。 你可以选择从下标为 0 或下标为 1 的台阶开始爬楼梯。 请你计算并返回达到楼…

作者头像 李华
网站建设 2026/4/18 23:12:32

分组交换和电路交换的关系与融合设计

这里就分组交换和电路交换的区别、联系以及传输速度比较方面做一些梳理。一、核心区别特性电路交换分组交换核心思想独占路径。通信前需建立一条端到端的专用物理电路(或信道)。共享与存储转发。数据被分割成分组,每个分组独立传输&#xff0…

作者头像 李华
网站建设 2026/4/19 11:33:40

Kotaemon + ONNX Runtime:GPU推理加速新范式

Kotaemon ONNX Runtime:GPU推理加速新范式 在企业级AI应用快速落地的今天,一个智能客服系统是否“聪明”,早已不再仅仅取决于它背后的大型语言模型有多强大。真正的挑战在于——当用户问出“我的订单为什么还没发货?”时&#xf…

作者头像 李华
网站建设 2026/4/23 8:53:13

25.12.18_第P5周:运动鞋识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍖 原作者:K同学啊 一、我的环境 二、动态学习率 这个地方使用的是官方的动态学习率接口,最开始源代码中0.92 ** (epoch // 2),在多轮实验中&#xff0…

作者头像 李华
网站建设 2026/4/18 16:16:58

Pod 资源限制与调度优化:提升集群性能的关键

Pod 资源限制与调度优化:提升集群性能的关键 关键词:Pod、资源限制、调度优化、集群性能、Kubernetes 摘要:本文围绕 Pod 资源限制与调度优化展开,深入探讨了其对于提升集群性能的重要性。首先介绍了相关背景知识,包括目的范围、预期读者等。接着详细阐述了 Pod 资源限制和…

作者头像 李华