极简LLM入门指南1-深圳市維司達科技有限公司

LLM全景图：理解大模型技术栈

要开始使用大语言模型，首先需要理解几个基本概念。

LLM（大语言模型）是基于Transformer架构的模型，它处理文本的基本单位叫Token（中文通常是1-2个字符）。模型在一次处理中能接收的文本长度称为Context长度。另一个重要参数是Temperature，它控制输出的随机性——0表示确定性输出，更高的值会增加创意但降低可控性。

技术栈架构

以下是大模型应用的典型技术栈：

主流模型对比

选择模型时，需要考虑成本、性能和你的具体需求。下面是目前常用的模型对比。

闭源模型

模型	价格($/M tokens)	优势	劣势	选择场景
GPT-4	30	最强能力	贵、慢	复杂推理
GPT-3.5	0.5	性价比高	能力一般	日常对话
Claude-3	15	长文本(200K)	中文一般	文档处理

开源模型

模型	参数	显存需求	特点	部署难度
Llama-3-8B	8B	16GB	综合最强	简单
Qwen2.5-7B	7B	14GB	中文最佳	简单
DeepSeek-Coder	7B	14GB	代码专精	简单
Mixtral-8x7B	46B	96GB	MoE架构	困难

选型决策树

defselect_model(budget,use_case,privacy):ifprivacy=="high":return"Llama-3-8B"ifbudget<3000else"Llama-3-70B"ifuse_case=="code":return"GPT-4"ifbudget>1000/月else"DeepSeek-Coder"elifuse_case=="chinese":return"Qwen2.5"ifprivacyelse"GPT-3.5"else:return"GPT-3.5"# 默认选择

基本使用方法

调用API

# 方式1：OpenAIfromopenaiimportOpenAI client=OpenAI(api_key="sk-...")response=client.chat.completions.create(model="gpt-3.5-turbo",messages=[{"role":"user","content":"Hello"}])print(response.choices[0].message.content)# 方式2：统一接口（支持多家API）importlitellm response=litellm.completion(model="claude-3-sonnet",# 或 gpt-4, gemini-pro 等messages=[{"role":"user","content":"Hello"}])

本地模型部署

如果你对数据隐私有顾虑，可以在本地部署开源模型：

# 方式1：使用Ollama（推荐新手）importrequests response=requests.post('http://localhost:11434/api/generate',json={"model":"llama3","prompt":"Hello"})print(response.json()['response'])# 方式2：使用TransformersfromtransformersimportAutoTokenizer,AutoModelForCausalLM model=AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-7B-Instruct")tokenizer=AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")inputs=tokenizer("Hello",return_tensors="pt")outputs=model.generate(**inputs,max_length=100)print(tokenizer.decode(outputs[0]))

流式输出

为了提高用户体验，你可以让模型逐字符输出结果，而不是一次性等待完整回复：

importsysforchunkinclient.chat.completions.create(model="gpt-3.5-turbo",messages=[{"role":"user","content":"写一首诗"}],stream=True):ifchunk.choices[0].delta.content:sys.stdout.write(chunk.choices[0].delta.content)sys.stdout.flush()

成本计算与选择

大模型的成本取决于你选择使用API还是本地部署。下面的工具可以帮你估算月度成本：

classLLMCostCalculator:"""成本计算工具"""# 价格表（美元/百万token）PRICES={"gpt-4":{"input":30,"output":60},"gpt-3.5":{"input":0.5,"output":1.5},"claude-3":{"input":15,"output":75},"本地7B":{"input":0,"output":0,"gpu_hour":0.5}}defcalculate_monthly_cost(self,model,daily_requests,avg_tokens=500):"""计算月度成本"""ifmodel.startswith("本地"):# 本地部署成本 = 电费 + 硬件折旧gpu_hours=daily_requests*0.01# 假设每请求0.01小时returngpu_hours*30*self.PRICES[model]["gpu_hour"]else:# API成本total_tokens=daily_requests*avg_tokens*30cost=total_tokens*self.PRICES[model]["output"]/1_000_000returncostdefrecommend_solution(self,daily_requests,budget):"""推荐方案"""ifdaily_requests<100:return"使用GPT-3.5 API"elifdaily_requests<1000:return"混合方案：本地7B + GPT-3.5备用"else:return"本地部署Llama-3或Qwen"# 使用示例calc=LLMCostCalculator()print(f"GPT-4月成本: ${calc.calculate_monthly_cost('gpt-4',100):.2f}")print(f"推荐方案:{calc.recommend_solution(500,100)}")

实际应用案例

不同的应用场景对模型和成本的需求不同。以下是几个常见案例：

应用	推荐模型	关键技术	预算/月
智能客服	GPT-3.5/Qwen-7B	RAG+缓存	$50-500
代码助手	DeepSeek-Coder	微调+IDE集成	$0-100
文档问答	Claude/Llama+RAG	向量库+检索	$100-1000
内容创作	GPT-4/Claude	Prompt优化	$500-5000

知识库问答是常见的应用场景。这里展示一个基本实现：

# 知识库问答最小实现fromlangchain.embeddingsimportOpenAIEmbeddingsfromlangchain.vectorstoresimportFAISSfromlangchain.chainsimportRetrievalQA# 1. 构建知识库texts=["文档1内容","文档2内容"]embeddings=OpenAIEmbeddings()vectorstore=FAISS.from_texts(texts,embeddings)# 2. 问答qa=RetrievalQA.from_llm(llm=ChatOpenAI(),retriever=vectorstore.as_retriever())answer=qa.run("问题")

优化与问题排解

使用LLM应用时，你可能会遇到一些常见的问题。以下是解决方案：

Token超限：如果上下文超过模型限制，使用滑动窗口截断早期的对话历史。

响应慢：启用流式输出可以让用户更快看到结果，同时缓存重复的请求也能显著加快速度。

成本高：可以采用混合部署策略，简单请求用本地小模型，复杂请求用API调用。

幻觉问题：大模型有时会生成虚假信息。使用RAG系统并降低temperature参数可以缓解这个问题。

性能优化示例

# 1. 缓存重复请求fromfunctoolsimportlru_cache@lru_cache(maxsize=1000)defcached_llm_call(prompt):returnllm.generate(prompt)# 2. 批处理responses=awaitasyncio.gather(*[llm.agenerate(prompt)forpromptinprompts])# 3. 模型量化（减少75%显存）model=AutoModelForCausalLM.from_pretrained("model_name",load_in_4bit=True)