vllm部署ERNIE-4.5-0.3B-PT：新手也能快速上手的教程-深圳市維司達科技有限公司

vllm部署ERNIE-4.5-0.3B-PT：新手也能快速上手的教程

想体验一下大语言模型的魅力，但又担心自己的电脑配置不够，或者被复杂的部署步骤劝退？今天，我们就来搞定一个对新手极其友好的方案：用 vllm 部署轻量级的 ERNIE-4.5-0.3B-PT 模型，再配上简单直观的 chainlit 前端界面。整个过程就像搭积木一样简单，不需要你懂太多底层技术，跟着步骤走，10分钟内你就能拥有一个属于自己的AI对话助手。

读完这篇教程，你将能：

在几分钟内完成一个轻量级大语言模型的部署。
通过一个漂亮的网页界面与AI模型进行对话。
理解整个部署流程的核心步骤，为后续尝试其他模型打下基础。

1. 准备工作：认识我们的“积木”

在开始搭建之前，我们先快速了解一下要用到的几个核心“积木块”。别担心，我们不用深究技术细节，知道它们是干什么的就行。

ERNIE-4.5-0.3B-PT：这是百度推出的一个“小身材，大能量”的模型。它只有大约3.6亿个参数，属于轻量级大语言模型。这意味着它对硬件要求不高，但依然能完成流畅的文本对话、内容创作等任务，非常适合我们新手入门和快速体验。
vLLM：你可以把它想象成一个“高速推理引擎”。它的专长就是用非常高效的方式运行像 ERNIE 这样的大模型，能显著提升模型回答问题的速度，减少等待时间。我们用它来“启动”和“驱动”ERNIE模型。
Chainlit：这是一个专门为AI应用设计的UI框架。它能把我们通过vLLM启动的模型，包装成一个漂亮的、类似ChatGPT的网页聊天界面。我们不需要写复杂的前端代码，就能有一个现成的对话窗口。

简单来说，我们的任务就是：用 vLLM 引擎启动 ERNIE 模型，然后用 Chainlit 给它套上一个好用的外壳。

2. 环境检查：确保模型已经“就位”

通常，在云平台或已经配置好的镜像环境中，模型部署服务会在后台自动进行。我们的第一步是确认模型服务是否已经成功启动并运行。

打开你的终端或WebShell工具。
输入以下命令来查看模型服务的启动日志：
```
cat /root/workspace/llm.log
```
观察输出内容。如果你看到类似下图的日志，末尾有Uvicorn running on http://0.0.0.0:8000这样的信息，并且没有报错，那就恭喜你，表示 vLLM 服务已经成功在后台运行，ERNIE 模型已经加载好了！（注：此处原文档有图片展示成功日志，你可以在自己的终端里核对关键信息。）

关键点：这个步骤就像检查汽车的发动机是否已经点火。看到成功的日志，我们才能进行下一步的“驾驶”操作。

3. 启动聊天界面：打开你的AI对话窗口

模型服务在后台运行好后，我们需要启动前端界面来和它交互。这里我们使用 Chainlit。

在终端中，运行启动 Chainlit 应用的命令。具体命令可能会因环境而异，一个典型的命令如下：
```
chainlit run app.py
```
（这里的app.py是一个预设好的 Chainlit 应用脚本，它已经配置好去连接我们刚才启动的 vLLM 服务。）
命令执行后，终端会输出一个本地访问地址，通常是http://localhost:7860或类似的。如下图所示：（注：此处原文档有图片展示Chainlit启动界面。）
打开你的网页浏览器（比如Chrome, Edge），在地址栏中输入上一步得到的地址（例如http://localhost:7860），然后按下回车。

4. 开始对话：与你的AI助手互动

现在，最激动人心的部分来了！浏览器中会出现一个简洁、美观的聊天界面。

在页面底部的输入框里，键入你想问的问题或想聊的话题。比如，你可以输入：“用简单的语言介绍一下你自己。”
按下回车键或点击发送按钮。
稍等片刻，你就会看到 ERNIE 模型生成的回复出现在对话框中。如下图所示：（注：此处原文档有图片展示问答交互界面。）

试试这些话题，看看它的表现：

“写一首关于春天的短诗。”
“如何快速学习Python编程？”
“解释一下什么是人工智能。”
“给我列一个周末居家清洁的清单。”

你可以连续提问，进行多轮对话，就像和一个朋友聊天一样。

5. 核心原理与配置浅析（可选了解）

如果你对背后的事情有点好奇，这里有一个简单的解释。整个过程的核心是一个配置文件，它告诉 Chainlit 去哪里找模型服务。

在一个典型的app.py或相关配置文件中，会有类似下面这样的代码，它设置了模型服务的地址（就是我们之前用 vLLm 启动的服务地址）：

# 这是一个简化的示例，展示核心配置思想 import chainlit as cl from openai import OpenAI # 关键：这里将客户端指向本地运行的 vLLM 服务 client = OpenAI( api_key="not-needed", # 因为本地服务，不需要真实的API Key base_url="http://localhost:8000/v1" # 指向本地vLLM服务的地址 ) @cl.on_message async def main(message: cl.Message): # 构建请求，发送给本地模型 response = client.chat.completions.create( model="baidu/ERNIE-4.5-0.3B-PT", # 指定模型名称 messages=[{"role": "user", "content": message.content}] ) # 获取模型回复并返回给前端界面 await cl.Message(content=response.choices[0].message.content).send()

这段代码的意思是：Chainlit 应用接收到网页前端发来的用户消息后，将其转发到http://localhost:8000这个地址（即vLLM服务），vLLM 驱动 ERNIE 模型生成回复，再把结果传回给 Chainlit 显示在网页上。