news 2026/4/23 13:56:46

[机器学习-从入门到入土] 词嵌入

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[机器学习-从入门到入土] 词嵌入

[机器学习-从入门到入土] 词嵌入

个人导航

知乎:https://www.zhihu.com/people/byzh_rc

CSDN:https://blog.csdn.net/qq_54636039

注:本文仅对所述内容做了框架性引导,具体细节可查询其余相关资料or源码

参考文章:各方资料

文章目录

  • [机器学习-从入门到入土] 词嵌入
  • 个人导航
  • 词嵌入Word Embedding
        • 词袋模型(bag-of-words)(BOW)
        • Word2Vec

词嵌入Word Embedding

神经网络只能处理数值向量,因此必须先把词映射为向量

具有相同含义的词语会获得相似的表示

大多数神经网络难以有效处理非常高维且稀疏的向量
-> 使用低维且稠密的向量

词袋模型(bag-of-words)(BOW)

计每个单词出现的次数,将任意文本转换为固定长度向量的表示方法

  • 词表大小 =V VV
  • 每个文本 → 一个V VV维向量
  • 每一维表示某个词出现的次数

问题 1:极度稀疏

  • 一个句子只包含极少数词
  • 向量中几乎全是 0

问题 2:没有语义结构

  • “king” 与 “queen” 在向量空间中正交
  • “king” 和 “apple” 距离一样远

Word Embedding 的目标:用低维、稠密的连续向量表示词,并让“语义相近的词在向量空间中距离更近”

Word2Vec

词的含义来自它的上下文

-> 语义相似的词会出现在相似的上下文中

Skip-gram:

给定语料:“the king loves the queen”
以窗口大小c = 2 c=2c=2为例:当中心词是king, 要预测the,loves
于是训练样本变成:
( king → the ) , ( king → loves ) (\text{king} \rightarrow \text{the}),\quad (\text{king} \rightarrow \text{loves})(kingthe),(kingloves)
Skip-gram 的目标函数(最大化):
1 T ∑ t = 1 T ∑ − c ≤ j ≤ c , j ≠ 0 log ⁡ p ( w t + j ∣ w t ) \frac{1}{T}\sum_{t=1}^{T}\sum_{-c\leq j\leq c,j\neq 0}\log p\left(w_{t+j}\mid w_{t}\right)T1t=1Tcjc,j=0logp(wt+jwt)

  • T TT:语料中词的总数
  • w t w_twt:中心词
  • w t + j w_{t+j}wt+j:上下文词
  • 目标:给定中心词w t w_twt,最大化真实上下文词出现的概率

Skip-gram 的概率模型:(Softmax)
p ( w O ∣ w I ) = exp ⁡ ( v w O ′ ⊤ v w I ) ∑ w = 1 W exp ⁡ ( v w ′ ⊤ v w I ) p\left(w_{O}\mid w_{I}\right) =\frac{\exp\left(v_{w_{O}}^{\prime\top} v_{w_{I}}\right)} {\sum_{w=1}^{W}\exp\left(v_{w}^{\prime\top} v_{w_{I}}\right)}p(wOwI)=w=1Wexp(vw′⊤vwI)exp(vwO′⊤vwI)

  • v w I v_{w_I}vwI输入词向量(中心词)

  • v w O ′ v'_{w_O}vwO输出词向量(上下文词)

  • 训练结束后:通常只保留v w v_wvw作为词嵌入

也有: King - man +woman -> Queen

说明能学到单词之间的逻辑关系

维度BOWWord2Vec
向量维度词表大小(上万)低维(50–300)
稀疏性极稀疏稠密
是否学习❌ 固定编码✅ 从数据中学
语义相似性❌ 无✅ 有
词间关系✅(向量运算)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/19 17:51:05

FontForge开源字体编辑器:从入门到精通的完整指南

FontForge开源字体编辑器:从入门到精通的完整指南 【免费下载链接】fontforge Free (libre) font editor for Windows, Mac OS X and GNULinux 项目地址: https://gitcode.com/gh_mirrors/fo/fontforge FontForge是一款功能强大的开源字体编辑器,…

作者头像 李华
网站建设 2026/4/18 17:25:28

Chrome应用商店发布IndexTTS 2.0浏览器插件

Chrome应用商店发布IndexTTS 2.0浏览器插件:自回归零样本语音合成技术深度解析 在短视频、虚拟主播和AI配音需求爆发的今天,一个令人头疼的问题始终困扰着内容创作者——生成的语音总是“慢半拍”或“快一步”,与画面节奏对不上。更别提想要让…

作者头像 李华
网站建设 2026/4/23 13:17:13

Syncthing Android 终极指南:跨设备文件同步的完整解决方案

想要在不同设备间实现无缝文件同步?Syncthing Android 为您提供完美的免费跨设备同步方案!这款开源工具让您的手机、平板和电脑保持文件实时同步,无需依赖云端服务器,完全掌控您的数据。 【免费下载链接】syncthing-android Wrapp…

作者头像 李华
网站建设 2026/4/23 11:36:28

HuggingFace镜像站点推荐 + IndexTTS 2.0模型部署加速技巧

HuggingFace镜像站点推荐 IndexTTS 2.0模型部署加速技巧 在AI生成内容爆发式增长的今天,语音合成已不再是实验室里的高门槛技术。从短视频配音到虚拟主播,再到有声书批量生产,高质量、可定制的TTS系统正成为内容创作者手中的“标配工具”。…

作者头像 李华
网站建设 2026/4/19 6:28:32

3步搞定全球古籍下载:bookget终极解决方案

还在为古籍研究资料难找而头疼吗?bookget数字古籍下载工具为你提供免费、高效的完整指南,快速上手全球50图书馆的古籍资源获取。 【免费下载链接】bookget bookget 数字古籍图书下载工具 项目地址: https://gitcode.com/gh_mirrors/bo/bookget 新…

作者头像 李华
网站建设 2026/4/22 12:17:30

NomNom存档编辑器:重新定义你的《无人深空》游戏体验

NomNom存档编辑器:重新定义你的《无人深空》游戏体验 【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item indiv…

作者头像 李华