大模型轻量化调优（昇腾平台方向）岗位技术名词拆解-深圳市維司達科技有限公司

大模型轻量化调优（昇腾平台方向）岗位技术名词拆解

大模型相关、轻量化核心技术、昇腾平台专属技术、推理优化与工程技术四大类拆解，贴合岗位实际应用场景：

一、大模型相关

Qwen（通义千问）
- 定义：阿里云研发的开源大语言模型系列，涵盖通用大模型（如Qwen1.5、Qwen2）和多模态模型，基于Transformer架构，支持中英文多任务处理。
- 岗位核心用途：需基于昇腾平台完成该系列模型的轻量化适配（量化、剪枝），并验证调优后模型的精度与推理性能。
DeepSeek
- 定义：深度求索研发的开源大模型系列，包括通用大模型（DeepSeek-V2/V3）、代码大模型等，在推理、代码生成等场景表现优异。
- 岗位核心用途：针对该系列模型的架构特性（如高效注意力机制），设计定制化轻量化方案，解决昇腾平台适配中的精度损失问题。
LLaMA（Large Language Model Meta AI）
- 定义：Meta开源的基础大模型系列（LLaMA2、LLaMA3），参数量覆盖7B - 70B，是开源大模型生态的核心底座，衍生出众多微调版本。
- 岗位核心用途：熟悉其Transformer层结构与计算特性，是实现高效剪枝、量化的前提，需解决该系列模型在昇腾NPU上的推理性能瓶颈。
Transformer 层
- 定义：大模型的核心基础架构单元，主要包含多头注意力机制和前馈神经网络（FFN）两大模块，是模型计算和显存占用的核心部分。
- 岗位核心用途：针对该层进行剪枝、低秩分解等轻量化操作，是岗位的核心技术方向，需结合昇腾硬件特性优化层计算逻辑。
MoE架构（Mixture of Experts，混合专家模型）
- 定义：一种稀疏激活的大模型架构，模型由多个“专家网络”和一个“门控网络”组成，门控网络根据输入选择部分专家参与计算，而非全部专家。
- 岗位核心用途：该架构参数量极大（如千亿级），显存和推理性能瓶颈突出，是岗位需要攻克的轻量化重点对象，需通过稀疏化、量化降低其部署成本。

二、轻量化核心技术

模型轻量化
- 定义：通过算法手段（量化、剪枝、稀疏化等）在尽量不损失模型精度的前提下，减小模型体积、降低显存占用、提升推理速度的技术总称。
- 岗位核心用途：是岗位的核心工作目标，需形成标准化调优流程，支撑大模型在昇腾平台的高效部署。
量化精度方案（W4A8/W8A8）
- 定义：大模型量化的核心精度配置方案，通过降低权重和激活值的数值精度，减少计算量和显存占用：
  - W4A8：权重（Weight）采用4位整数（INT4）量化，激活值（Activation）采用8位整数（INT8）量化，轻量化程度高，但易出现精度损失。
  - W8A8：权重和激活值均采用8位整数量化，精度损失较小，是平衡性能与精度的主流方案。
- 岗位核心用途：需提炼精度恢复方案（如敏感层不量化、量化感知微调），解决量化后模型效果下降的问题。
敏感层分析策略
- 定义：通过实验或算法分析，识别大模型中对量化、剪枝等操作高度敏感的网络层（如注意力层的Query/Key矩阵、输出层），并针对性采取“不量化”“低精度量化”等策略的方法。
- 岗位核心用途：是保证轻量化后模型精度的关键策略，需结合具体大模型（Qwen/LLaMA）的特性制定标准化分析流程。
模型稀疏化
- 定义：通过算法将模型权重中的部分数值置为0，形成稀疏矩阵，从而减少计算量和显存占用的技术，分为非结构化稀疏（随机置0）和结构化稀疏（按通道/头置0）。
- 岗位核心用途：需实现稀疏化与昇腾NPU的适配，利用硬件对稀疏矩阵的计算优化能力，提升推理性能。
模型剪枝
- 定义：一种结构化轻量化技术，移除模型中冗余的网络结构（如Transformer层的注意力头、FFN层的神经元、卷积核），分为注意力头剪枝、通道剪枝等。
- 岗位核心用途：负责Transformer层剪枝的技术迭代，需保证剪枝后模型在昇腾平台的推理兼容性，同时不损失核心能力。
KV-Cache稀疏/量化优化
- 定义：KV-Cache是大模型推理时，用于缓存注意力机制中Key和Value矩阵的显存空间，其占用量随输入序列长度线性增长，是长文本推理的显存瓶颈。
- 岗位核心用途：通过稀疏化（只缓存关键Token的KV值）或量化（将KV值从FP32转为INT8/FP8）降低缓存占用，提升昇腾平台长文本推理性能。
INT4/INT8/FP8混合量化
- 定义：针对模型不同层的特性，混合使用多种精度的量化方案（如敏感层用FP8、非敏感层用INT4），平衡轻量化程度与模型精度。
- 岗位核心用途：需实现该混合方案的工程落地，结合昇腾NPU的精度计算支持能力，最大化推理性能。
PTQ（Post-Training Quantization，训练后量化）
- 定义：一种轻量化量化方案，无需重新训练模型，直接对训练完成的模型权重和激活值进行量化，具有成本低、速度快的特点。
- 岗位核心用途：是岗位优先要求的技术，需解决PTQ过程中的精度下降问题，适配昇腾推理框架。
低秩分解
- 定义：将模型中高维权重矩阵分解为两个或多个低维矩阵的乘积，减少参数数量和计算量的技术（如将一个m×n矩阵分解为m×k和k×n矩阵，k<<min(m,n)）。
- 岗位核心用途：常用于Transformer层FFN模块的轻量化，需结合昇腾硬件的矩阵计算特性优化分解策略。

三、昇腾平台专属技术

华为昇腾平台
- 定义：华为推出的面向AI计算的软硬件一体平台，包含昇腾NPU芯片、Atlas系列硬件、CANN软件栈，主打高效AI推理与训练。
- 岗位核心用途：所有大模型轻量化工作需基于该平台开展，目标是实现模型在昇腾硬件上的性能最大化。
CANN架构（Compute Architecture for Neural Networks）
- 定义：昇腾平台的核心软件栈，是连接深度学习框架（PyTorch）与昇腾NPU硬件的桥梁，提供模型编译、优化、推理的全流程工具链。
- 岗位核心用途：需了解其架构原理，通过CANN工具对轻量化后的模型进行编译优化，解决推理兼容性问题。
昇腾NPU（Neural Processing Unit）
- 定义：昇腾平台的核心计算芯片，专为AI任务设计，具备高并发、高能效比的矩阵计算能力，支持多种精度（FP32/FP16/INT8/INT4）计算。
- 岗位核心用途：需结合其算力架构、存储层次（如片上缓存、显存）优化模型推理逻辑，充分发挥硬件性能。
Atlas系列硬件
- 定义：华为基于昇腾NPU推出的AI硬件产品系列，包括Atlas 800 IA2（推理服务器）、Atlas 300I Duo（推理卡）等，用于AI模型的部署与推理。
- 岗位核心用途：需具备这些硬件的使用经验，针对不同硬件的存储、算力配置，定制化轻量化模型的部署方案。

四、推理优化与工程技术

显存优化
- 定义：通过技术手段（如模型量化、KV-Cache优化、梯度检查点）降低模型训练或推理时的显存占用，使大模型能够在有限显存的硬件上运行。
- 岗位核心用途：需具备实战经验，解决大参数量模型（如MoE架构）在昇腾硬件上的显存瓶颈问题。
推理性能调优
- 定义：通过优化模型结构、计算逻辑、硬件适配方式，提升模型推理速度（降低延迟）、提高吞吐量的技术工作。
- 岗位核心用途：岗位核心目标之一，需协同推理框架，确保轻量化模型在昇腾平台的性能最大化。
大模型自定义层开发
- 定义：针对大模型的特殊网络层（如自定义注意力机制、MoE专家层），基于PyTorch等框架进行自定义实现或修改的工作。
- 岗位核心用途：需具备该能力，解决轻量化过程中自定义层的量化、剪枝适配问题，以及昇腾平台的推理兼容性问题。
推理框架
- 定义：用于模型部署推理的软件框架（如昇腾自研的推理框架、ONNX Runtime），负责将训练好的模型转换为可执行的推理程序。
- 岗位核心用途：需协同推理框架进行模型适配，优化推理逻辑，解决轻量化模型的推理异常问题。