
Qwen-Image-Layered 是阿里通义千问开源的 AI 模型,可把单张照片一键拆成带透明通道的独立图层,让“零 PS 基础”的用户也能像专业设计师一样精准改图。
1 主要功能
-
自动分层:输入任意单张静态照片,模型输出若干 RGBA 图层,人物、背景、道具各自独立。
-
无损编辑:可对任意图层单独缩放、位移、换色、删除或替换,其余部分像素级保留。
-
可重复细分:对已有图层再次运行模型,可继续拆出更精细子图层,实现“无限套娃”式精修。
-
透明通道保留:每层自带 Alpha 通道,直接拖进 Photoshop、Figma、After Effects 等软件即可二次创作。
-
开源推理代码:提供 PyTorch 权重、Gradio 在线 Demo 和一键脚本,支持本地 GPU / CPU 推理。
2 技术原理
-
基于 Transformer 的语义分割骨干网络,先对图像做全景实例级分割。
-
引入“分层注意力”模块,在网络深层为每个潜在图层生成软掩膜(Soft Mask)。
-
使用 RGBA 合成损失 + 图层顺序损失联合训练,确保拆分顺序与真实 Photoshop 图层一致。
-
采用“可重复掩膜细化”策略,同一图层可迭代送入模型继续细分,无需重新训练。
-
训练数据:2000 万张“图像-图层”对,涵盖人像、电商、动漫、室内室外四大场景。
3 应用场景
-
电商作图:把商品、模特、背景拆层后,批量换色、换季节风格,节省外包美工费用。
-
短视频创作:图层直接导入 AE 做动态漫画、人物浮空等特效,无需绿幕拍摄。
-
摄影后期:快速实现“换天空”“去路人”“局部调色”,保留发丝级细节。
-
游戏 UI:将原画拆分为角色、武器、特效层,方便引擎内做装备幻化预览。
-
AI 数据生产:为图像生成模型提供高质量分层训练数据,提升可控生成效果。
4 使用方法
-
环境准备:Python≥3.8,PyTorch≥2.0,CUDA≥11.7(可选)。
-
下载权重:在 Hugging Face 或 ModelScope 搜索 Qwen-Image-Layered,克隆仓库。
-
安装依赖:pip install -r requirements.txt,下载约 2.3 GB 模型权重。
-
一键分层:python infer.py --input photo.jpg --output ./layers,平均 5 秒出图。
-
在线体验:无需安装,直接访问官方 Gradio Demo,上传图片即可下载图层 ZIP 包。
5 适用人群
-
不会 Photoshop 的运营、学生、自媒体博主。
-
需要批量出图的外贸、跨境电商美工团队。
-
视觉特效、动画、游戏公司的预研或原型组。
-
研究可控图像编辑、图层生成的算法工程师与高校实验室。
6 优缺点介绍 优点
-
零门槛:无需手动抠图,一键出图层,小白也能 3 分钟做海报。
-
精度高:发丝、镂空物体边缘保留完整,Alpha 边缘误差 < 2 px。
-
可迭代:同一图层可无限再细分,精度随需求线性提升。
-
全开源:权重、代码、训练脚本全公开,可自由商用(Apache-2.0)。
缺点
-
显存占用:4K 图峰值显存约 9 GB,老显卡需降分辨率运行。
-
复杂场景误判:多层重叠透明物体(酒杯、婚纱)可能出现图层顺序错误。
-
无矢量输出:目前仅生成位图图层,文字边缘放大后仍有锯齿。
-
中英提示依赖:细分再分层时需输入简短提示词,中文提示效果略逊于英文。
7 分类标签 图像编辑、AI 抠图、图层分离、开源模型、电商美工、短视频特效
Hunyuan-DiT 是腾讯开源的一款强大的多分辨率扩散变换器(Diffusion Transformer),具备精细的中文理解能力。该模型旨在探索文本到图像的生成,支持中英文双语输入,并能够进行多轮对话式图像生成。