近日,腾讯混元正式发布混元图像3.0图生图(HunyuanImage3.0-Instruct)模型,该模型凭借强大的语义理解与推理能力,为用户提供高效的图像编辑和多图融合功能,标志着大模型P图进入“意图驱动”的时代。
(一)技术突破:语义理解驱动的图像编辑
混元图像3.0图生图模型总参数量达80B(激活参数约13B),采用先进的混合专家(MoE)架构。与传统修图工具不同,该模型具备卓越的语义理解与推理能力,在接收到图片和提示词后,会先分析图像内容并拆解编辑步骤,精准识别需要修改与保留的区域。依托于千万量级的图生图数据及自研MixGRPO算法,模型在保持非编辑区域一致性、指令响应速度以及真实感表现上均有显著提升。
(二)功能强大:多样化创作能力
该模型支持80余种细分任务,为用户提供多样化的创作能力。具体功能包括:
图片精修:支持对光线、皮肤及背景进行增删改,甚至可在不破坏布局的情况下修改图片中的文字。
风格变换:实现真人变漫画、像素风格转化或老照片修复。
深度融合:支持提取多张照片中的人物或元素,快速合成全新的合照或创意图片。
(三)应用广泛:满足多种场景需求
目前,用户可以通过腾讯元宝体验AI制作表情包、虚拟合拍及电商海报设计等功能。这标志着大模型P图正式进入“意图驱动”的高效时代,为社交分享、电商设计、游戏角色定制等多个领域提供了强大的支持。


