
一、UniWorld-V2
中文原生图像编辑新王,框选即改、中文字体精准渲染,性能碾压 GPT-Image-1 与 Gemini 2.0。
中文原生图像编辑新王,框选即改、中文字体精准渲染,性能碾压 GPT-Image-1 与 Gemini 2.0。
二、主要功能
-
框选即改:用户任意框选区域,输入中文口令即可替换、删除、添加物体或文字。
-
中文字体精准渲染:首次实现复杂汉字笔画、书法风格、光影一致性的像素级还原。
-
多轮迭代编辑:支持连续多次修改,自动保持前序结果的光影、色调、语义一致。
-
高阶风格控制:可对材质、年代、艺术风格(国风、赛博、水墨等)进行细粒度调节。
-
自动排版与版式生成:根据中文文案一键生成海报、Banner、电商主图等成品级画面。
三、技术原理
-
UniWorld-R1 视觉强化学习框架:
-
将图像编辑视为「序列决策」任务,用强化学习直接优化编辑策略,而非传统监督回归。
-
奖励函数由「中文 CLIP + 美学评分 + OCR 置信度」联合构成,确保语义、美感、文字三对齐。
-
-
双塔中文多模态编码器:
-
视觉塔:InternViT-6B 增强版,加入局部框选感知模块,支持任意形状 mask。
-
语言塔:Chinese-LLaMA-3-8B,继续预训练 200 亿 token 中文图文对,实现成语、网络热词、专业术语全覆盖。
-
-
级联扩散精炼网络:
-
先由 512 级联到 1024 分辨率快速出图,再由「字形-光影联合精炼器」做 2 K 级超分,确保笔画锐利、光影自然。
-
-
编辑历史记忆机制:
-
将每轮编辑结果压缩成「隐式 token」注入下一轮,避免多轮漂移,实现「无限编辑不崩图」。
-
四、应用场景
-
电商运营:主图、详情页、促销海报的批量本土化生成。
-
社交媒体:公众号封面、小红书配图、短视频模板秒级出图。
-
出版印刷:杂志内插、教材插图、古籍修复与再创作。
-
游戏动漫:立绘改色、服饰迭代、剧情分镜快速原型。
-
政企宣传:红色主题海报、政策图解、城市形象宣传画。
五、使用方法
-
在线 Demo:
-
访问官方 Gradio 页面 → 上传图片 → 框选区域 → 输入中文口令 → 点击「生成」即可下载。
-
-
API 调用:
-
注册获取
<token>→ 按 REST 格式 POST 图片 base64 + 中文指令 → 返回 2 K PNG,首包延迟 <1.8 s。
-
-
本地部署:
-
拉取 Docker:
docker pull uniworld/univ2:latest→ 单卡 A100 80 G 即可运行,显存占用约 62 G。
-
-
高级参数:
-
strength:0–1,控制修改幅度; -
font_mode:strict / loose,决定字形还原严格程度; -
aesthetic_lr:实时美学权重,可调高获得更鲜艳商业图。
-
六、适用人群
-
电商美工、运营、个体店主
-
新媒体编辑、短视频创作者
-
视觉设计师、插画师、动漫从业者
-
教育出版、政府宣传部门
-
生成式 AI 研究者、多模态开发者
七、优缺点介绍
-
优点
-
中文原生:成语、诗句、网络黑话零样本理解,无需英文 prompt。
-
字形精准:OCR 准确率 97.3%,书法连笔、生僻字均可还原。
-
多轮一致:连续 10 轮编辑,FID 仅上升 0.8,明显优于 SDEdit 系列。
-
推理速度快:512 图 1.1 s,1024 图 2.3 s,支持批量化。
-
-
缺点
-
硬件门槛高:最低 A100 80 G,消费级显卡无法本地运行。
-
闭源模型:权重尚未完全开源,仅提供 API 与试用 Demo。
-
版权风险:训练集含大量网络抓取图片,商用需二次确权。
-
极端比例文字:竖排 1:10 以上长条 banner 会出现轻微字形压缩。
-
图像编辑、中文多模态、扩散模型、强化学习、电商设计、新媒体工具、AI 绘图
快手开源的 72B 参数代码大模型,以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录,让“国产 AI 编程助手”第一次站上全球第一梯队。