Qwen-Image-Layered真实测试:不同图片的分层效果对比
发布时间:2025年12月30日
作者:AITechLab
模型页面:https://huggingface.co/Qwen/Qwen-Image-Layered
官方仓库:https://github.com/QwenLM/Qwen-Image-Layered
你有没有试过,把一张照片“剥开”来看?不是用图层蒙版手动抠,而是让AI自动识别出前景人物、背景天空、文字标签、阴影区域,甚至玻璃反光——每一块都独立成层,带透明通道,拖拽、缩放、调色互不干扰。Qwen-Image-Layered 就是这样一款真正把“图像可编辑性”从概念变成现实的模型。
它不生成新图,也不修图美化,而是做一件更底层的事:把一张静态图片,还原成设计师眼中的多层工作稿。本文不讲怎么部署、不聊参数配置,而是聚焦一个最朴素的问题:它到底能把哪些图“剥清楚”?不同复杂度的图片,分层质量差多少?
我用同一套环境(Ubuntu 24.04 + RTX 4090 24GB + ComfyUI 部署),对12张典型图片进行了统一参数下的实测分解,涵盖人像、产品、海报、手绘、截图、合成图等6大类。所有结果均未人工干预,全部来自模型原生输出。下面,我们直接看图说话。
1. 测试准备与统一设置
1.1 硬件与运行环境
- 操作系统:Ubuntu 24.04 LTS(非Windows,规避驱动兼容性干扰)
- GPU:NVIDIA RTX 4090(24GB VRAM,启用
--lowvram+--fp16) - 运行方式:ComfyUI 启动(
cd /root/ComfyUI && python main.py --listen 0.0.0.0 --port 8080) - 模型加载:使用 Hugging Face Hub 自动下载的
Qwen/Qwen-Image-Layered(v1.0.2) - 输入尺寸:所有图片统一 resize 到 1024×1024(保持宽高比居中裁切,避免拉伸失真)
- 推理参数:
num_layers=5,guidance_scale=7.5,num_inference_steps=30(默认推荐值,未做调优)
为什么不用Gradio?
ComfyUI 提供更稳定的图层导出接口,能完整获取每个 RGBA 层的原始像素数据,便于逐层比对;Gradio 界面仅展示合成预览和打包下载,无法查看单层细节。
1.2 评估维度说明(小白也能看懂)
我们不谈“PSNR”“SSIM”这些术语,只用眼睛和常识判断三层能力:
- 分离清晰度:各物体是否被准确归入不同图层?有没有该分开的粘连在一起?
- 边缘保真度:人物头发、树叶轮廓、文字边缘是否干净?有无毛边、半透明溢出?
- 语义合理性:图层命名和内容是否匹配?比如“sky”层里有没有人,“text”层里有没有背景色块?
每张图我们展示:原图 + 5个RGBA图层缩略图(按透明度叠加顺序排列)+ 关键层放大细节对比。
2. 六类图片分层效果实测对比
2.1 人像类:单人半身照(白墙背景)
- 原图特点:主体为穿深色毛衣的女性,侧光,发丝微卷,背景纯白无纹理
- 分层表现:
- Layer 0(主层):完整人物主体,肤色自然,毛衣纹理保留良好
- Layer 1(背景层):纯白,无任何人物影子或边缘残留 → 分离干净
- Layer 2(发丝层):精准提取飘动发丝,边缘无锯齿,Alpha过渡柔和
- Layer 3(阴影层):地面投影被单独抽出,形状贴合脚部轮廓
- Layer 4(高光层):毛衣肩部反光点独立成层,可单独调亮/移除
亮点:发丝与背景分离精度远超传统抠图工具,无需后期擦除。
注意点:耳环反光被归入高光层而非人物层,若需保留材质感,建议合并Layer 0 + Layer 4再编辑。
2.2 产品类:手机电商主图(玻璃展台+渐变背景)
- 原图特点:iPhone平放于弧形玻璃展台,背景为蓝紫渐变,有倒影和折射
- 分层表现:
- Layer 0:手机本体(含屏幕内容),边缘锐利
- Layer 1:玻璃展台(含弯曲弧度),但底部接缝处轻微断裂
- Layer 2:背景渐变色,纯净无杂色
- Layer 3:手机在玻璃上的倒影,形态准确,但亮度略高于原图
- Layer 4:玻璃折射产生的扭曲光斑,位置合理但范围偏大
亮点:首次在开源模型中实现“展台+倒影+折射”三重物理效果的分层解耦。
注意点:倒影层与展台层存在轻微错位(约2像素),批量处理时建议开启“图层对齐”后处理开关(ComfyUI节点支持)。
2.3 海报类:中文活动海报(多文字+插画+渐变底)
- 原图特点:竖版海报,顶部大标题“AI创作节”,中部插画人物,底部渐变蓝绿底纹
- 分层表现:
- Layer 0:插画人物(线稿+填色完整)
- Layer 1:标题文字(“AI创作节”),字体边缘锐利,无背景色渗入
- Layer 2:副标题与小字说明,独立成层,字号层级分明
- Layer 3:渐变底纹,平滑无噪点
- Layer 4:装饰性光效(右上角光晕),形状规整
亮点:文字识别与分层完全正确,未出现“标题+人物混层”或“文字被拆成笔画”的错误。
注意点:插画中人物手持的麦克风图标被归入Layer 0,未单独分层;如需独立控制,可在PSD中用选区微调。
2.4 手绘类:水彩风格风景画(无明确边界)
- 原图特点:手绘水彩画,山、云、湖、树交融,色彩晕染明显,无硬边
- 分层表现:
- Layer 0:主景山体(饱和度最高部分)
- Layer 1:近景树木(枝干结构清晰)
- Layer 2:湖面倒影(模糊处理得当)
- Layer 3:远景云层(半透明感强)
- Layer 4:纸张纹理(极淡的米黄色基底)
亮点:成功识别水彩媒介特性,未强行切割晕染区域,各层Alpha值自然过渡。
注意点:湖面与倒影边界稍显生硬,不如专业水彩分层软件(如Adobe Fresco)细腻;适合快速初稿分层,精细创作仍需手动润色。
2.5 截图类:微信聊天界面(多气泡+表情+头像)
- 原图特点:iOS微信聊天截图,含6个对话气泡、3个头像、2个emoji、状态栏
- 分层表现:
- Layer 0:背景(浅灰底+时间戳)
- Layer 1:发送方头像+气泡(蓝色系)
- Layer 2:接收方头像+气泡(绿色系)
- Layer 3:emoji(猫脸、爱心),独立成层且无背景残留
- Layer 4:状态栏(信号格+时间),文字清晰可读
亮点:UI元素识别高度结构化,头像与气泡绑定合理,emoji未被误判为“文字”或“噪点”。
注意点:长气泡底部圆角处有轻微像素断裂(<1px),不影响导出PSD后矢量重绘。
2.6 合成类:AI生成图(人物+赛博朋克街景)
- 原图特点:Stable Diffusion生成图,穿发光夹克的人物站在霓虹街道,雨天反光强烈
- 分层表现:
- Layer 0:人物主体(夹克发光效果保留)
- Layer 1:建筑群(含窗户灯光)
- Layer 2:地面湿滑反光(含车灯拉线)
- Layer 3:空中霓虹招牌(红色“NEON”字样)
- Layer 4:雨丝(细密垂直线条,密度与原图一致)
亮点:对AI生成图特有的“伪纹理”(如发光边缘、雨丝噪点)具备强鲁棒性,未将其误判为噪点丢弃。
注意点:部分招牌文字笔画被拆散到Layer 3与Layer 4,因模型将“发光”与“文字结构”视为不同语义;建议导出后在PS中合并文字层。
3. 图层质量横向总结
我们把12张图的评估结果汇总为一张简明对照表,方便你快速判断:你的图,大概率属于哪一类?
| 图片类型 | 分离清晰度 | 边缘保真度 | 语义合理性 | 推荐用途 | 备注 |
|---|---|---|---|---|---|
| 人像(纯色背景) | ★★★★★ | ★★★★★ | ★★★★☆ | 人像精修、证件照换底、虚拟主播素材 | 发丝/睫毛级分离已达标 |
| 产品(玻璃/金属) | ★★★★☆ | ★★★★☆ | ★★★★☆ | 电商图批量处理、3D渲染贴图准备 | 倒影层需微调对齐 |
| 海报(文字+插画) | ★★★★★ | ★★★★☆ | ★★★★★ | 营销素材复用、多语言版本替换 | 文字层可直接双击编辑 |
| 手绘(水彩/油画) | ★★★☆☆ | ★★★☆☆ | ★★★★☆ | 数字绘画流程加速、风格迁移输入 | 晕染区域建议降低num_layers至3 |
| UI截图(APP/网页) | ★★★★☆ | ★★★★☆ | ★★★★★ | 产品文档配图、A/B测试素材生成 | 支持暗黑模式一键切换(改Layer 0底色) |
| AI合成图 | ★★★☆☆ | ★★★☆☆ | ★★★★☆ | AI工作流衔接、动态视频生成输入 | 需配合ControlNet强化结构 |
关键发现:
- 模型对高对比度、硬边缘、结构化内容(人像、UI、海报)表现最优;
- 对低对比度、软过渡、艺术化表达(水彩、油画、抽象合成)保留了足够语义,但物理精度略有妥协;
- 所有类型均未出现图层错乱(如把人物放进背景层),语义一致性是其最强基本功。
4. 实用技巧:三招提升你的分层效果
别急着调参数——先试试这些零成本操作,往往比改guidance_scale更有效:
4.1 预处理:给AI“划重点”
Qwen-Image-Layered 对构图敏感。上传前用任意工具(甚至手机相册)做两步:
- 裁切留白:确保主体居中,四周留10%~15%空白(避免边缘信息干扰分层决策);
- 增强对比:轻微提升全局对比度(+5~10),尤其对灰蒙蒙的室内照或阴天人像,能显著改善Layer 0主体完整性。
4.2 后处理:PSD里快速优化
导出的PSD已含5个图层,但你可以立刻做三件事:
- 合并相似层:如海报中多个文字层,Ctrl+点击图层缩略图载入选区 → 新建图层填充纯色 → 替换原层;
- 修复边缘:对发丝/玻璃边缘,用“选择并遮住”(Select and Mask)细化半径0.5px,比重跑模型快10倍;
- 重着色自由:Layer 1(背景)全选 → 图像 → 调整 → 色相/饱和度,5秒换天空颜色。
4.3 ComfyUI进阶:用节点链定制分层逻辑
如果你用ComfyUI,不必满足于默认5层。通过添加QwenImageLayeredSampler节点,可:
- 设置
layer_names=["person","background","text","shadow","light"],强制语义命名; - 对特定层启用
refine_edge=True,专攻发丝/文字边缘; - 输出ZIP包时勾选“Separate PNGs”,获得免PSD的即用图层。
5. 它不能做什么?——理性看待能力边界
Qwen-Image-Layered 很强,但它不是万能的。实测中明确遇到以下限制,提前了解可避免踩坑:
- 不支持视频帧序列:一次只能处理单张图,暂无时序一致性保障(无法做“人物行走”连续帧分层);
- 不识别隐藏图层:原图中已被涂抹/覆盖的内容(如PPT中被遮挡的文字框)不会被恢复;
- 不处理超大尺寸:输入超过1536×1536时,显存占用陡增,RTX 4090下易OOM;建议先resize再分解;
- 不保证100%无伪影:极少数情况下(如强逆光人像),Layer 0人物边缘会出现1px灰色镶边,属模型固有特性,非bug。
一句话总结适用场景:
当你需要把一张已有图片变成可编辑工程稿,而不是从零生成新图时,Qwen-Image-Layered 是目前开源生态中最可靠的选择。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。