AI神操作！上传PDF论文自动生成图文混排解读，GLM-4.6V多模态技术大揭秘，代码已复刻！-深圳市維司達科技有限公司

嘿，大家好！这里是一个专注于前沿AI和智能体的频道~

上周是智谱的多模态开源周，从GLM 4.6v到Autoglm…

看到官方的博客，第一眼比较吸引我的，不是模型本身，是他们给的一个使用场景 -图文并排。

上传一份 PDF 论文，它能生成一篇图文混排的解读文章，而且效果非常好。图片位置精准，上下文衔接自然，完全不像是机械拼接的。

过去我们想做图文混排，都是预定义一些图片，让多模态大模型生成描述，再让LLM在写文章时结合图片描述，选择合适的图片url。

流程繁琐，效果一般（主要是模型看不到这些图）。

太久没用过多模态大模型了，感觉时代似乎变了~

Z.ai 已经上线了这个能力，所以我逆向了一下原理，复刻了一下，有不少收获，给家人们分享一下。

一、GLM 4.6V 是一个多模态原生智能体

我们可以看一下下边的视频。大概的步骤是，模型会先生成一个带工具槽位的初版，然后进行图片引用，调用裁剪工具，捞回来图片，最后完成终稿的撰写。

其实从Z.ai 服务请求日志，也可以看到具体的工具调用信息。

相当于类似一个ReAct Agent，调用工具截图相当于获取到observation，然后进行下一步的Action。

如果想做一个自由度没这么高的一个架构，类似下图：

基于这个模式，我复刻了一套代码。结果跟ZAI跑出来的结果基本一致。重点是复刻过程中，我发现了几个非常有意思的点，后文会详细介绍一下。

跑一篇20页的论文，大概消耗1毛5的样子。如果用量比较多，可以考虑智谱的GLM Coding Plan，20 元包月起，用量是同价位 Claude Code 的三倍。而且官方提供了一系列适配4.6v的MCP，使用起来会更顺手。

二、三个有意思的能力

模型知道图片的精确位置

这是Glm4.6V 最让我惊讶的能力。模型不仅能理解图片内容，还能输出图片在页面上的坐标，比如前面调用图片裁剪工具，我让模型输出的格式如下：

[页码, [[x1, y1, x2, y2]], "图片标题"]

需要注意的是：模型的输出坐标是千分位坐标（0-999 范围），需要按比例转换成像素坐标。当然如果用官方mcp tools没这个烦恼。

def thousandth_to_pixel(coord, image_width, image_height): """千分位坐标转像素坐标""" x1 = int(coord[0] / 1000 * image_width) y1 = int(coord[1] / 1000 * image_height) x2 = int(coord[2] / 1000 * image_width) y2 = int(coord[3] / 1000 * image_height) return [x1, y1, x2, y2]

为什么是千分位？因为不同分辨率的图片，像素坐标会变，但千分位坐标是相对的，更具通用性。

一次输入几十张图片

一篇 20 页的 PDF，转成图片后全部塞进去，模型能完整理解，128k确实不是吹的。

这让我想起不久前智谱的另一个工作Glyph：把文本渲染成图片，让视觉 token 承载更多信息。

传统的 token 扩展方式已经走到算力成本的天花板。与其硬扛百万级token的计算压力，不如让 AI看文字，而不是读文字。

所以过去我们头痛的解析、分块等操作，随着多模态模型的变强，似乎迎刃而解了。

可以基于裁剪结果持续迭代

获取到裁剪后的图片之后，如果只是简单的字符串替换，直接正则就够了。

但如果用VLM，在第二轮可以验证裁剪是不是正确，可以调整图片周围的文字，可以优化图文的排版位置。

GLM-4.6V 就是一个原生的 Agent。

三、最后

多模态时代的 Agent 和纯文本时代完全不一样。

模型不再只是读信息，而是看信息。它知道 Figure 2 在第 4 页的左上角，知道 Table 3 的边界在哪里，知道如何把这些视觉元素编排到文章中。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

Spring Cloud Alibaba使用Seata解决分布式事务全过程解析