news 2026/4/23 16:03:37

面试-Decoder-Only生成模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面试-Decoder-Only生成模型

1 背景

Decoder-Only 模型(如 GPT 系列、Llama)的工作原理是“根据上下文预测下一个字” 。这种 “递归”的特性导致了必须将推理过程拆分为两个截然不同的阶段。

  • 输入:整个历史序列。

  • 输出:下一个 Token。

  • 循环:预测出的 Token 会被拼接到输入中,作为下一次计算的输入。

Q1 为什么会分为两个截然不同的阶段?
维度Prefill 阶段 (预填充)Decode 阶段 (解码)
任务目标处理用户输入的 Prompt(提示词)。逐个生成新的 Token。
计算特征并行计算。一次性把用户输入的 N 个词全部喂给模型。串行计算。一次只处理一个词,算完才能算下一个。
计算强度计算密集型 (Compute-bound)。矩阵维度大,GPU 算力被充分利用。访存密集型 (Memory-bound)。矩阵维度极小(向量),大部分时间花在从显存搬运权重上。
核心瓶颈GPU 的峰值算力(TFLOPS)。显存带宽 (Memory Bandwidth)。
关键指标TTFT(Time to First Token,首字延迟)。TPOT(Time Per Output Token,单字生成速度)。

看图 1 中 Iter 2 和 Iter 3 的虚线框,你会发现它们只处理新生成的词。为什么不需要重新计算之前的“I think this”?

  • 背景:在 Attention 计算中,每一个词都需要和之

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:48:22

《把脉行业与技术趋势》-100-电动机——永不落幕的能源转换艺术

电动机(Electric Motor)是将电能转化为机械能(旋转或直线运动)的核心电磁能量转换装置,被誉为“工业心脏”和“电气化文明的基石”。以下从原理本质、核心结构、主流类型、性能指标、现代演进与前沿趋势六大维度&#…

作者头像 李华
网站建设 2026/4/23 9:46:46

Linux驱动学习笔记:spi-imx.c收发消息的核心流程

spi-imx.c 分析策略与核心流程 一、spi-imx.c分析顺序 1. probe函数 → 理解初始化做了什么 2. 回调函数注册 → 找到关键回调 3. 数据传输路径 → 跟踪实际传输流程 4. 硬件操作细节 → 理解寄存器操作二、核心关键:spi-bitbang.c 的介入 重大发现 /* spi_imx_…

作者头像 李华
网站建设 2026/4/23 9:45:47

基于单片机的机房环境监测系统设计与实现

系统总体概述 点击链接下载protues仿真资料:https://download.csdn.net/download/m0_51061483/92081459 基于单片机的机房环境监测系统是一种面向现代数据机房、通信机房以及中小型设备集中场所的综合环境监控解决方案。随着信息化程度的不断提高,机房…

作者头像 李华
网站建设 2026/4/23 9:47:04

Excel CHAR函数实战:从自动换行到特殊符号,这些技巧让效率翻倍

你是否经常需要在Excel中插入特殊符号,或者实现智能换行?CHAR函数就是你的秘密武器!这个看似简单的函数,却能解决数据展示中的诸多难题。 一、CHAR函数基础 函数语法 CHAR(数字编码) 功能:返回对应数字编码的字符 编…

作者头像 李华
网站建设 2026/4/23 9:45:45

【计算机毕业设计案例】基于springboot的日用品销售系统基于springboot+vue的日用品销售系统设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华