SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
摘要 通过人脸图像和一段语音音频生成说话头视频仍然存在许多挑战。例如,不自然的头部运动,扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面,明确使用3D信息也会遇到僵硬的表达和不连贯的视频问题。我们提出了SadTalker,它可以生成3英寸的3D运动系数(头部姿势,表情)。
FLUX.1-Turbo-Alpha 是由阿里巴巴集团旗下的阿里妈妈创意团队开发的一个预训练语言模型。
字节跳动新发布的 AI 视频模型 Waver 1.0,凭借其强大的多种艺术风格视频生成能力,为视频创作领域带来了全新的变革。
HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具,能通过单张照片或文字描述快速生成360°沉浸式3D场景,为用户带来全新的视觉体验。
MagicEdit明确地解开了外观和运动的学习,以实现高保真和时间连贯的视频编辑。它支持各种编辑应用程序,包括视频风格化、本地编辑、视频MagicMix 和视频绘制。
。该方法通过多模态注意力机制,将视频和文本特征进行融合,并利用多语言翻译模型将不同语言的文本特征进行转换,从而实现跨语言的视频-文本检索。实验结果表明,该方法在多语言视频-文本检索任务上取得了较好的效果。
一款基于PyTorch的音乐生成工具包,支持高音质音乐、歌曲和音频生成,能够通过文本提示、音乐风格和结构等进行可控生成。
FLUX.1-Turbo-Alpha 是由阿里巴巴集团旗下的阿里妈妈创意团队开发的一个预训练语言模型。