SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
摘要 通过人脸图像和一段语音音频生成说话头视频仍然存在许多挑战。例如,不自然的头部运动,扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面,明确使用3D信息也会遇到僵硬的表达和不连贯的视频问题。我们提出了SadTalker,它可以生成3英寸的3D运动系数(头部姿势,表情)。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
HumanPlus 是一个开源项目,旨在实现人形机器人的模仿学习和影子学习。该项目提供了人形影子变换器(Humanoid Shadowing Transformer, HST)和人形模仿变换器(Humanoid Imitation Transformer, HIT)的实现,以及全身姿态估计和相关硬件代码库的指南。
腾讯混元图像2.1(HunyuanImage 2.1)是腾讯最新发布的开源文生图大模型,支持原生2K高清生图,具备强大的复杂语义理解能力。
VINCIE-3B是由字节跳动开源的一款3亿参数的上下文连续图像编辑模型,基于其内部MM-DiT架构开发。
项目旨在通过人工智能技术,创造一个无限广阔的数字宇宙,实现与现实世界相媲美的视觉效果和实时互动能力。
一款强大的AI智能体工具,它不仅具备深度研究能力,还能实现实际操作,真正推动AI Agent进入“边想边干”的阶段。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。