
上传一张图、一段参考视频,就能让角色“活”起来或把原片人物换成新角色,同时保持表情、动作、光影一致的开源 AI 视频神器。
一、主要功能
-
动画模式:静态图+参考视频→角色精准复刻表情与全身动作,背景不变。
-
替换模式:把参考视频里的人物整体替换成新角色,自动匹配光照、色调与相机运动。
-
长视频连续生成:用前段帧作为条件,逐段生成,保证时序一致。
-
多角色兼容:真人、卡通、半身、全身均适用,支持唇形同步与复杂舞蹈。
二、技术原理
-
统一扩散 Transformer 架构:在 Wan-I2V 基模上改输入公式,单模型完成双任务。
-
骨骼信号空间对齐:2D pose 直接注入初始噪声潜在空间,控制肢体大动作。
-
隐式面部特征:用参考视频提取高维表情向量,通过交叉注意力驱动面部微表情。
-
Relighting LoRA:针对替换模式额外训练低秩适配器,实时重打光,实现环境融合。
-
时间帧引导:前后帧特征拼接,确保长镜头运动与身份一致性。
三、应用场景
-
短视频/MV:一张插画生成完整唱跳,无需拍摄。
-
影视预演:快速替换演员,验证镜头与动作设计。
-
虚拟主播:低成本生成 VTuber 直播素材。
-
电商广告:一人分饰多角,省去群演与布景费用。
-
企业培训:把标准课件视频中的讲师换成品牌 IP 形象。
四、使用方法
-
准备材料:一张清晰角色图(png/jpg)、一段带动作表情的参考视频(mp4/mov)。
-
环境搭建:
-
克隆 GitHub 仓库,创建 conda 环境,安装 PyTorch2.3+、xformers、diffusers 等依赖。
-
下载 Wan-Animate-14B 权重(HuggingFace/ModelScope)。
-
-
运行脚本:
-
动画模式:python animate.py --image role.png --video ref.mp4 --out out.mp4
-
替换模式:python replace.py --image new_role.png --video ref.mp4 --out out.mp4
-
-
参数调优:可调整分辨率(最高 1280×720)、帧数、步数、CFG scale、Relighting 强度。
-
后期:输出已带同步音轨,可直接剪辑,也可导入 ComfyUI 做风格化后处理。
五、适用人群
-
短视频创作者、独立导演、动画学生——零拍摄成本做 demo。
-
游戏、动漫、IP 运营方——快速生成角色衍生内容。
-
开发者、科研人员——可二次训练、接入工作流。
-
广告、教育、跨境电商——需要多语言多形象批量视频。
六、优缺点一览
-
优点
-
开源免费,商用友好;
-
双模式一体,同类工具需切换模型;
-
表情+骨骼解耦,动作精度优于 AnimateAnyone、VACE;
-
Relighting LoRA 让替换结果接近电影级;
-
社区已提供 ComfyUI 节点,拖拽即用。
-
-
缺点
-
显存胃口大,14B 全精度需 32 GB+ VRAM,720p 常爆显存;
-
极端光照、快速运动场景仍可能抖动;
-
仅支持单人,若参考视频出现多人需预先遮罩;
-
实时性差,生成 5 秒 24fps 片段约 15 min(RTX4090)。
-
视频生成、角色动画、动作迁移、开源模型、AI 影视工具、扩散 Transformer、虚拟人制作
智谱清影2.0是智谱AI推出的“文本→高清视频+自动音效”一体化生成工具,10 秒即可把一句话变成 1080P 乃至 4K 的完整短片,免费向个人与企业开放。