news 2026/4/23 12:26:28

学习周报三十一

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
学习周报三十一

摘要

本周主要研究了两项关于多模态生成与扩散模型优化的前沿工作。深入分析了论文《ThinkDiff》,其核心创新在于通过视觉-语言训练作为代理任务,将视觉语言模型(VLM)与扩散解码器进行高效对齐,并利用随机掩码策略提升对齐网络的语义理解深度,实验结果显示其在多维度图像生成任务上显著优于现有方法。同时,进一步探讨了《Back to Basics: Let Denoising Generative Models Denoise》(JiT)中关于预测目标(x-prediction vs. v-prediction)的争议,明确了其结论适用于大Patch尺寸的DiT模型,而非单纯与分辨率相关。

Abstract

This week focused on two cutting-edge works concerning multimodal generation and diffusion model optimization. An in-depth analysis was conducted on the paper “ThinkDiff”, whose core innovation lies in efficiently aligning the visual language model (VLM) with the diffusion decoder using vision-language training as a proxy task. It employs a random masking strategy to enhance the semantic understanding depth of the alignment network, with experimental results showing it significantly outperforms existing methods in multi-dimensional image generation tasks. Additionally, further discussion was held on the controversy regarding prediction targets (x-prediction vs. v-prediction) in “Back to Basics: Let Denoising Generative Models Denoise” (JiT), clarifying that its conclusion applies to DiT models with large patch sizes, rather than being solely related to resolution.

1、论文学习

1.1 创新点

✦直接对齐VLM与扩散解码器需要大量复杂数据和低效的扩散训练。为了解决这个问题,ThinkDiff通过一个代理任务,将VLM与大语言模型(LLM)的解码器进行视觉-语言训练(Vision-language Pretraining)。在将VLM与LLM解码器对齐之后,由于共享特征空间的存在,VLM就自然地与扩散解码器对齐。

✦为了避免对齐网络走捷径而非真正对齐特征空间,ThinkDiff在训练阶段对VLM输出的token特征使用随机掩码策略。这种策略随机丢掉一部分特征,让对齐网络学会仅从不完整的多模态信息中恢复语义。这种掩码训练使得对齐网络能够深度理解图像和文本,从而高效地将理解能力传递给扩散解码器。

1.2 方法

本文的的主要研究方法是通过代理任务实现视觉语言模型(VLM)与扩散模型的对齐,具体为利用视觉-语言训练作为代理任务,将VLM与大语言模型(LLM)的解码器进行对齐,再通过共享特征空间将VLM的多模态推理能力迁移至扩散模型。该方法通过自回归生成多模态特征向量,并利用轻量级对齐网络将其映射到LLM解码器的输入空间,以重建图像文字描述为监督目标进行训练。为避免对齐网络仅学习简单特征映射,训练阶段采用随机掩码策略丢弃部分VLM输出的token特征,迫使网络从残缺信息中恢复完整语义,从而深度理解图像与文本的逻辑关系。最终在推理阶段,通过共享特征空间将VLM的推理能力传递给扩散解码器,使其具备多模态上下文理解与生成能力。

本图展示了ThinkDiff方法的核心流程,结合了视觉语言模型(VLM)的训练和基于重建的扩散微调。左侧部分描述了ThinkDiff在推理和训练过程中的主要步骤:首先,通过视觉语言模型(VLM)处理输入的图像和文本提示,然后通过一个对齐器将VLM的输出与大语言模型(LLM)解码器对齐,以计算文本损失。同时,VLM的输出通过扩散解码器生成最终的图像输出。右侧部分展示了通过视觉语言训练ThinkDiff的过程,包括使用文本编码器和图像编码器分别处理输入,再通过对齐器将信息传递给扩散解码器,以计算扩散损失。整个流程结合了多模态上下文理解和高质量图像生成,通过共享特征空间将视觉语言模型的推理能力迁移到扩散模型,使其具备根据文本提示生成和推理图像的能力。

1.3 实验

该表格展示了不同方法(SEED-LLaMA、Emu、GILL 和本文提出的方法)在多个生成维度(颜色、背景、风格、动作、质感,分为I和II两类)上的性能表现,以及本文方法相对于其他方法的提升百分比。数据显示,本文提出的方法在所有维度上的得分均显著高于其他对比方法,特别是在动作和背景维度上,提升幅度高达718.9%和676.3%(动作I和背景II),在其他维度也有明显提升,充分证明了本文方法在多模态生成任务中的优越性和全面性。

2、JiT研究

实验结果显示,x-prediction 比 v-prediction 差得多得多!这是论文有问题吗?

看了一遍论文后,认为论文的主要主张是「高分辨率像素 DiT 用 x-prediciton 更优」。

如下图所示,_base 指的是用 v-predition 的 baseline,_x0 指的是 JiT 最终采用的 x-prediction + v loss。这里输出的是 1000 个样本的 FID 指标 (越低越好)。训练一共执行 200 个 epoch,batch size 为 256。

这样看来,对论文的结论理解似乎有误。论文的真正结论应该是「大 patch size 的 DiT 用 x-prediciton 更优」,和分辨率究竟多大,以及是否是像素 DiT 无关。

总结

本周通过对两篇前沿论文的系统性研读,深化了对多模态生成模型架构设计与扩散模型训练目标优化的理解。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:44:38

基于深度学习的无人机检测系统(YOLOv10+YOLO数据集+UI界面+模型)

一、项目介绍 YOLOv10无人机识别检测系统 是一个基于YOLOv10(You Only Look Once version 10)目标检测算法的智能系统,专门用于检测和识别无人机(drone)。该系统能够自动识别并定位无人机,适用于空域监控、…

作者头像 李华
网站建设 2026/4/23 10:44:53

传统产品经理转型AI PM的完整指南,非常详细收藏我这一篇就够了

传统产品经理转型AI PM指南:强调理解AI能力而非编写代码。文章从认知重塑、技能树重构到实战路径三方面展开,通过小红书文案生成器案例,展示从基础Prompt到Few-Shot和RAG思维的进阶过程,提供低代码构建Demo方法,帮助快…

作者头像 李华
网站建设 2026/4/23 10:44:28

【工业树莓派 CM0 NANO 单板计算机】YOLO26 部署方案

【工业树莓派 CM0 NANO 单板计算机】YOLO26 部署方案 本文介绍了工业树莓派 CM0 NANO 单板计算机结合 OpenCV 和 Ultralytics 库实现 YOLO26 板端部署,并实现目标识别、姿态估计、图像分割、图像分类、旋转框检测的项目设计,包括环境部署、模型获取、关…

作者头像 李华
网站建设 2026/4/23 11:27:56

springboot博物馆管理系统设计开发实现

背景分析 博物馆作为文化遗产保护和展示的重要场所,传统管理模式面临数据分散、效率低下、游客体验不足等问题。数字化需求日益增长,需通过信息化手段提升管理效率和服务质量。 技术选型依据 Spring Boot框架因其快速开发、微服务支持和生态丰富性&am…

作者头像 李华
网站建设 2026/4/23 14:55:12

微信小程序毕设项目推荐-基于Java的美妆化妆品商城购物小程序的设计与实现基于springboot+协同过滤算法的美妆护理类的购物平台小程序【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华