推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation（三）-深圳市維司達科技有限公司

一、训练细节

二、端到端MLRM细节

三、Qwen-VL-Chat的显著性分数分析

传统MLLMs与MLRMs的适配问题

四、零样本多模态表示性能

五、长查询与目标对模型性能评估

上一篇文章：推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation（二）

一、训练细节

所有基于大语言模型（LLM）的模型，其详细训练超参数均列于表8中。此外，训练过程中采用DeepSpeed [37]及零冗余优化器（ZeRO）[38]的第三阶段技术。

二、端到端MLRM细节

表9提供了端到端MLRM的详细信息。同时，为便于理解Tomato模型的特性，此处详述其持续预训练细节。Tomato基于LLaMA 2 [47]架构，原模型仅支持英文。由于目标平台面向中文市场，需增强LLaMA 2的中文理解能力，因此在持续预训练中进行了以下改进：

词表扩展：将原始词表从32,000个词元扩展至49,216个，新增的17,216个词元主要为中文词汇。
预训练数据：数据来源包含三部分：中文语料、英文语料及平台专有数据。中文语料采用开源数据集如万卷[18]和悟道[53]，总量约2T词元；为保持英文能力，引入RedPajama[9]数据；此外，整合了平台内高质量笔记数据30B词元，以更好地学习平台数据特性。

Tomato在提升中文理解能力的同时，英文能力与原始LLaMA 2模型相当。需说明的是，预训练细节与本文贡献无关，本文方法基于持续预训练后的模型实现。这也体现了NoteLLM-2方法的优势：在微调前可针对不同模态对基座模型进行个性化增强。

三、Qwen-VL-Chat的显著性分数分析

在Qwen-VL-Chat中观察到独特的显著性分数模式（如图6所示）。该模型的主要信息流为文本形式，所有层的数值均高于0.8。这一现象源于大量视觉嵌入（Qwen-VL-Chat中为256维）输入到大型语言模型（LLMs），导致图像信息流的平均显著性降低。

传统MLLMs与MLRMs的适配问题

上述结果表明，传统多模态大语言模型（MLLMs）无法直接适用于多模态大规模表征模型（MLRMs）。为适配MLRMs，需通过增加信息流密度的方式调整MLLMs的结构设计。

四、零样本多模态表示性能

本节以零样本方式探索多模态大语言模型（MLLMs）在多模态I2I推荐任务中的表示能力。实验选取了四种主流MLLMs：BLIP-2 [27]、LLaVA-1.5 [30]、Qwen-VL [3]和Qwen-VL-Chat [3]，同时对比了基线方法BM25 [39]、Qwen-Chat [2]以及基于LLaMA 2 [47]持续预训练的纯文本模型Tomato（该模型缺乏视觉感知能力，但使用了平台数据训练）。模型细节见表7。为分析MLLMs对不同模态的表示能力，测试时分别独立输入图像和文本。

实验结果见表10，主要发现如下：现有MLLMs的零样本表示性能均逊于BM25，表明尽管MLLMs具备优秀的视觉理解能力，但其零样本多模态表示能力仍有不足，原因在于MLLMs采用语言建模损失训练，与表示任务目标不匹配，因此需要额外训练以实现任务对齐。

多数情况下，MLLMs对多模态输入的表示效果优于单模态，证明其能有效提取并融合多模态信息。同时，大多数MLLMs对文本信息的表示能力优于图像信息，这与模型参数主要源于纯文本LLMs有关，且实验场景中文本笔记比图像更具区分性。

值得注意的是，纯文本LLMs在不接收任何图像输入时，性能仍可与MLLMs相当。

五、长查询与目标对模型性能评估

为全面评估方法的有效性，针对长查询与长目标对进行了测试。长文本定义为超过165个标记（约占测试文本的10%）的样本。测试数据集包含2,228个长查询对和2,177个长目标对。结果如表11所示。

由于大语言模型（LLMs）出色的长上下文理解能力，长文本对的性能显著优于整体数据，因长文本提供了更丰富的信息。此外，相比基础方法，所提方法在长文本对上进一步提升了效果，这表明增强对视觉信息的关注对长文本处理同样重要。

好啦，关于notellm-2这篇文章已经基本完成讲解，之后会已这篇多模态大模型展开，去调研相关paper，并进行路径整理，敬请期待～

Javaweb项目的上下文路径

目录上下文路径假如Application Context /（根路径） 假设此时 Application Context /app。浏览器访问必须加前缀代码中处理路径的规则（核心：区分框架语法 / 原生标签） 静态资源访问的特殊场景（S…

李华

伊沙佐米：治疗多发性骨髓瘤的靶向药物解析【海得康】

多发性骨髓瘤作为一种血液系统恶性肿瘤，给患者的生活质量和生命健康带来极大威胁。在众多治疗药物中，伊沙佐米凭借其独特的靶向作用机制，成为多发性骨髓瘤治疗领域的重要选择。伊沙佐米属于蛋白酶体抑制剂类药物。蛋白酶体在细胞内扮演着“…

李华

为什么越来越多的IT技术人员转行网络安全？零基础入门到精通，收藏这一篇就够了

2022年的年前年后对于互联网人都不是一个太平的时间，互联网大厂的“裁员潮”愈演愈烈。京东裁员横跨多个板块，比例在 10-30%。有赞两轮裁员近七成，腾讯也不例外。虽已春暖花开，大厂却仍“寒冬正至”。 ▲有赞员工工牌图片互联网…

李华

Error occurred during initialization of VMCould not reserve enough space for object heap

解决 "Could not reserve enough space for object heap" 错误该错误通常是由于Java虚拟机（JVM）尝试分配的内存超过了系统可用内存或操作系统限制。以下是几种解决方法：调整JVM堆内存参数修改启动脚本中的-Xmx和-Xms参数&#xff0…

李华

HTTP协议在C#大文件上传中如何处理重试逻辑？

毕业设计：企业级文件传输系统方案探索在毕业设计选题阶段，我结合自身兴趣与计算机专业所学，确定了企业级文件传输系统这一课题。近期，我在网上搜索相关资料、参与论坛交流、加入多个QQ群和微信群，但收获不尽如人意。很…

李华

一、训练细节

二、端到端MLRM细节

三、Qwen-VL-Chat的显著性分数分析

传统MLLMs与MLRMs的适配问题

四、零样本多模态表示性能

五、长查询 与 目标对 模型性能评估

Javaweb项目的上下文路径

伊沙佐米：治疗多发性骨髓瘤的靶向药物解析【海得康】

SELinux 介绍

为什么越来越多的IT技术人员转行网络安全？零基础入门到精通，收藏这一篇就够了

Error occurred during initialization of VMCould not reserve enough space for object heap

HTTP协议在C#大文件上传中如何处理重试逻辑？

五、长查询与目标对模型性能评估