SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
摘要 通过人脸图像和一段语音音频生成说话头视频仍然存在许多挑战。例如,不自然的头部运动,扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面,明确使用3D信息也会遇到僵硬的表达和不连贯的视频问题。我们提出了SadTalker,它可以生成3英寸的3D运动系数(头部姿势,表情)。
阿里Wan 2.2是阿里巴巴云推出的一款开源AI视频生成模型,旨在通过强大的生成能力,为用户提供高质量的视频创作支持。
nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目,可在笔记本电脑上一分钟内完成文本生成,帮助开发者彻底理解大模型原理。
Synthesia 3.0 是全球领先的 AI 视频生成平台,通过“视频代理”与多语言虚拟形象,让企业与个人无需拍摄即可快速制作专业、互动、本地化的视频内容。
一款创新的图像生成模型,专注于混合现实与插画风格的图像创作。
GitHub Models提供了一个交互式的模型游乐场,用户可以在这里测试不同的提示和模型参数,无需支付费用。此外,GitHub Models与Codespaces和VS Code集成,允许开发者在开发环境中无缝使用这些模型,并通过Azure AI实现生产部署,提供企业级安全和数据隐私保护。
SongGeneration 是腾讯 AI Lab 推出的开源音乐生成大模型,旨在解决音乐生成领域中的音质、音乐性与生成速度等关键问题,同时支持文本控制、多轨合成与风格跟随等功能。
阿里Wan 2.2是阿里巴巴云推出的一款开源AI视频生成模型,旨在通过强大的生成能力,为用户提供高质量的视频创作支持。