news 2026/4/23 15:41:59

BERT核心机制解析:BERT 是不是多头的,有没有位置编码,注意力机制;还是仅仅就是向量映射,BGE和BM25是什么,怎么使用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
BERT核心机制解析:BERT 是不是多头的,有没有位置编码,注意力机制;还是仅仅就是向量映射,BGE和BM25是什么,怎么使用

BERT 是不是多头的,有没有位置编码,注意力机制;还是仅仅就是向量映射

目录

    • BERT 是不是多头的,有没有位置编码,注意力机制;还是仅仅就是向量映射
      • 1. 注意力机制(特别是“自注意力”)
      • 2. 多头注意力
      • 3. BERT 有位置信息:位置编码(在BERT中是“位置嵌入”)
      • 整体的BERT架构
      • 与“传统向量映射”的对比
      • 结论
    • BM25和BGE的编码方式
      • 1. BM25:关键词匹配的“数学标尺”
      • 2. BGE:深度语义理解的“神经网络”
      • 对比总结
      • 现代检索的最佳实践:两者结合
    • 传统的、主流的嵌入模型(如早期的Word2Vec句向量、Doc2Vec,以及基于BERT的[CLS]池化或平均池化方法)只为整段输入文本生成一个“单一的、固定维度的向量”,不能够理解语义
      • 为什么传统方法会丢失层级信息?
      • 后果是什么?
      • 现代进展:如何捕捉层级语义?
        • 1. **密集检索中的“词级”或“段级”表示**
        • 2. **ColBERT 模型及其思想**
        • 3. **多向量表示法**
        • 4. **层次化编码器**
      • 总结

BERT绝不仅仅是向量映射。它是一个极其复杂的、基于Transformer编码器架构的深度神经网络,而多头注意力机制和位置编码正是其心脏和骨骼。**

1. 注意力机制(特别是“自注意力”)

这是BERT的灵魂。它的目的不是简单地生成词向量,而是让模型在编码一个词时,能够动态地、有区分地关注到输入序列中所有其他的词,从而理解上下文。

  • 工作原理:对于句子中的每个词(例如“银行”),自注意力机制会计算它与句子中所有词(包括它自己)的关联分数。这个分数决定了在编码当前“银行”时,应该从“河边的”、“存款”、“利率”这些词中分别吸收多少信息。
  • 作用:这解决了传统词向量(如Word2Vec)的“一词多义”问题。通过动态的上下文交互,“银行”在“河边的银行”和“银行存款”中会得到截然不同的上下文表示。

2. 多头注意力

这是注意力机制的强大升级版。BERT不是只做一次注意力计算,而是并行地做很多次(例如12次或24次,即12个或24个“头”)。

  • 工作原理:每个“头”都有一套独立的参数,可以学习关注句子中不同类型的依赖关系。例如:
    • 一个头可能专门关注语法结
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:01:39

【AI】Cursor 编辑器使用指南

Cursor 编辑器使用指南 📖 目录 简介核心功能AI 交互模式模型选择快捷工具栏Web 搜索功能引用功能详解快捷键大全Agent 高级功能使用建议总结参考资源 简介 Cursor 是一款由 AI 驱动的代码编辑器,能够理解你的代码库,并通过自然语言助你更…

作者头像 李华
网站建设 2026/4/23 13:58:37

数通设备堆叠技术:iStack与CSS方案对比及应用选型

在数通网络架构中,堆叠技术是提升设备扩展性、可靠性与管理效率的核心方案,其中iStack(华为设备堆叠协议)与CSS(集群交换系统,华为高端设备堆叠方案)是业界主流的两种堆叠实现方式。结合业务口堆叠、堆叠卡堆叠、免配置堆叠等不同部署形态,二者在技术原理、性能特性、适…

作者头像 李华
网站建设 2026/4/23 12:10:24

Java死锁原因剖析:面试必看的高薪技巧!

文章目录Java死锁原因剖析:面试必看的高薪技巧!一、死锁:线程界的“抢椅子游戏”死锁的四个必要条件二、常见死锁场景:代码中的“定时炸弹”场景一:不恰当的锁顺序场景二:数据库中的锁竞争场景三&#xff1…

作者头像 李华
网站建设 2026/4/23 12:24:11

Java面试必看!如何优雅唤醒阻塞线程?

文章目录Java面试必看!如何优雅唤醒阻塞线程?一、引言二、常见问题1. 为什么不能使用Thread.stop()方法?2. 阻塞线程的常见场景三、如何优雅唤醒阻塞线程?1. 使用Interrupt机制(1)基本使用(2&am…

作者头像 李华
网站建设 2026/4/23 11:25:14

uniapp富文本rich-text

1. uniapp富文本rich-text 官方文档:https://uniapp.dcloud.net.cn/component/rich-text.html 1.1. 示例 1.1.1. richText.vue <template><view ><view class"rich-layout" ><rich-text :nodes"richText"></rich-text>&l…

作者头像 李华