增加离散度为何重要
- 上图下方的曲线图表示离散度越高,图像生成和重建的质量越好,之前VAE和GAN都是将隐变量z设置的连续值,VQGAN则是将Z转换为了离散值再进入解码器;
为什么增加离散度很难1
- 原本左侧是个连续的噪声图,如果强行换成离散的2o5sS...后,就不存在雅可比行列式了(因为离散不可导);就没办法训练;
为什么增加离散度很难2
- 对于GAN模型
如果将先转换为离散的字符再输入到判别器,那回来对输入的求导就没法求了,因为是离散的,不可导,也实现不了l;
- 我们的模型当前过于依赖微积分;
- 对于GAN模型
为什么不能将token嵌入到连续空间中
- 可以将其离散化到连续空间,但是留下的空白太多了,学习起来很苦难;
综上,目前最好的模型就是自回归模型
接着列了一些自回归模型的有优点
列了一些自回归模型的有缺点
进主题
- 基于上面说过的自回归的问题,重新思考一下基于分数的模型,因为这样不用去限制概率和为1这个困难项;
- 下来的主题就是怎么将这些模型推广到离散;
分三步
- 第一是怎么将评分匹配推广到离散空间;
- 有了离散评分后,怎么生成新样本;
- 当我们构建生成模型生成新序列时,能评估似然吗?目的是与自回归模型做比较。
将评分函数推到离散空间
- 使用离散求梯度的方式来转换评分函数;
优化p(y)/p(x)
- 因为要最大化第10点中的对数的导数,因此要遍历p(y)/p(x)找最大值,但是量太大,改为求局部的;
用个神经网络来算比率
如何学习这个比率
- 用这个分数熵来作为损失函数学习;
为什么设置这样的损失函数
化解
- x0是干净样本,x是加噪后的样本;
最终化解为
- 最终要么是可抽样的,要么是可计算的,只有s是需要求的;
如何用具体评分抽样
- Q的列和为0;
- Q非对角线上的值非负;
反向
- 太特么尼玛的复杂了,看不懂了,到这儿才看一半,我就不死磕了,等博主把前面的内容整理消化后再来重温它吧,后续计划是会出一个专栏来整理CS236各个课程的知识框架,主要还是将前面的知识系统化,最后再来重温和消化这一课的东西,感觉这个讲师是把他的研究成果拿出来分享了,一时半会儿无法吸收,想想也是,人家研究了那么久的东西,你凭什么看一堂课就能懂,那么在另外一个专栏里再和大家分享更系统化的知识吧。
斯坦福-CS236 Lecture 18 如何用扩散模型建模 PPT标注
张小明
前端开发工程师
Oumuamua-7b-RP镜像免配置:预编译CUDA内核+量化权重的即启体验
Oumuamua-7b-RP镜像免配置:预编译CUDA内核量化权重的即启体验 1. 项目概述 Oumuamua-7b-RP 是一个专为日语角色扮演对话设计的Web界面大语言模型,基于Mistral-7B架构开发。这个镜像经过特殊优化,提供了开箱即用的沉浸式角色对话体验&#x…
算法训练营第十二天| 169.多数元素
今日任务:169. 多数元素 尝试多种解法,提交第二周学习小结 题意: 给定一个大小为 n 的数组 nums ,返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的,并且给定的数组…
Photoshop图层批量导出终极指南:如何用免费脚本实现10倍速高效工作流 [特殊字符]
Photoshop图层批量导出终极指南:如何用免费脚本实现10倍速高效工作流 🚀 【免费下载链接】Photoshop-Export-Layers-to-Files-Fast This script allows you to export your layers as individual files at a speed much faster than the built-in script…
多智能体协作框架ToolOrchestra:从原理到实战构建AI系统智能
1. 项目概述:当AI学会“思考”与“协作”最近在AI社区里,一个名为“ToolOrchestra”的项目引起了我的注意。这个名字本身就很有意思——“工具管弦乐队”。它不是一个单一的工具,而是一个旨在协调多个AI智能体(Agent)进…
macOS安装Ngnix/1.29.8
一、安装 Homebrew(如已安装可跳过) 打开终端(Terminal),执行以下命令安装 Homebrew(Mac 上最常用的包管理工具): /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.…