MagicAvatar是一个多模式框架,能够将各种输入模式(文本、视频和音频)转换为运动信号,随后生成动画。
HunyuanVideo-Foley是腾讯混元团队开源的端到端视频音效生成模型,能够根据输入的视频内容和文字描述,自动生成与画面高度匹配的高质量音效,为视频创作带来沉浸式体验。
MNN TaoAvatar是阿里巴巴基于其开源的轻量级深度学习推理框架MNN开发的3D数字人技术,支持真3D虚拟角色的实时生成与驱动,能够在手机等移动设备上以高达90FPS的帧率运行,带来流畅的交互体验。
SkyReels-A3 是一款基于多模态输入的端到端框架,能够合成高保真且时间连贯的人类视频,支持通过音频等多模态输入生成高质量的长视频内容。
Baichuan-M2-32B 是一款由 Baichuan AI 开发的医疗增强型推理模型,专为医学推理任务设计,具备强大的医疗知识、推理能力和患者交互能力。
“No Language Left Behind”(NLLB),旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型,包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。
字节跳动推出的视觉语言基础模型,旨在推进通用多模态理解和推理能力,并在多个公共基准测试中取得了优异的成绩。
HunyuanVideo-Foley是腾讯混元团队开源的端到端视频音效生成模型,能够根据输入的视频内容和文字描述,自动生成与画面高度匹配的高质量音效,为视频创作带来沉浸式体验。