一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。
Rendora是一款世界领先的3D AI虚拟形象生成工具,能够将文本快速转换成高质量的3D视频。
Hunyuan-DiT 是腾讯开源的一款强大的多分辨率扩散变换器(Diffusion Transformer),具备精细的中文理解能力。该模型旨在探索文本到图像的生成,支持中英文双语输入,并能够进行多轮对话式图像生成。
可灵AI数字人让“一张静态图+一段音频/文字”在分钟内变成1080p、48fps、情绪动作可控的多语种数字人视频,成本最低0.12元/秒。
用于可控游戏世界生成的互动世界基础模型,能够基于参考图像、运动帧和用户操作生成高质量的互动视频。
PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
AniPortrait是一个根据音频和图像输入生成会说话、唱歌的动态视频的项目。它能够根据音频和静态人脸图片生成逼真的人脸动画,口型保持一致。支持多种语言和面部重绘、头部姿势控制。功能包括音频驱动的动画合成、面部再现、头部姿势控制、支持自驱动和音频驱动的视频生成、高质量动画生成以及灵活的模型和权重配置。
Rendora是一款世界领先的3D AI虚拟形象生成工具,能够将文本快速转换成高质量的3D视频。