SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
摘要 通过人脸图像和一段语音音频生成说话头视频仍然存在许多挑战。例如,不自然的头部运动,扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面,明确使用3D信息也会遇到僵硬的表达和不连贯的视频问题。我们提出了SadTalker,它可以生成3英寸的3D运动系数(头部姿势,表情)。
一种新的视频超分辨率(VSR)模型,旨在生成具有高频细节和时间一致性的视频。
高性能多模态 AI 模型,具备超长上下文处理能力和高效的推理性能,适用于多种复杂任务。
MiniMax旗下的Hailuo AI推出的全新功能,能够基于单张图像生成多角度、多姿势的角色动态图像,广泛应用于影视、游戏、广告等领域。
阿里云推出的AI创意作画工具,能够根据用户输入的文本描述生成相应的艺术画作。
开源的音频基础模型,擅长音频理解、生成和对话,适用于多种音频处理任务。
一款AI驱动的陪伴工具,能够提供情感支持、个性化聊天体验,并帮助用户高效管理文档和信息。
一种新的视频超分辨率(VSR)模型,旨在生成具有高频细节和时间一致性的视频。