MagicAvatar是一个多模式框架,能够将各种输入模式(文本、视频和音频)转换为运动信号,随后生成动画。
国内首个输出分步式讲解的推理模型,专为教育场景设计,能够通过思维链技术模拟人类思考过程,帮助学生更好地理解和掌握知识。
。该方法通过多模态注意力机制,将视频和文本特征进行融合,并利用多语言翻译模型将不同语言的文本特征进行转换,从而实现跨语言的视频-文本检索。实验结果表明,该方法在多语言视频-文本检索任务上取得了较好的效果。
Pika Labs 开发的 AI 驱动的视频编辑工具,能够无缝修改和替换视频中的对象,通过视频修复技术实现高效的内容创作和创意表达。
wechatferry是一个用于微信小程序的自动化测试与部署的工具,旨在提高小程序开发效率与测试覆盖率。
GUAVA是由清华大学深圳国际研究生院和IDEA联合提出的用于快速可动画的上半身3D高斯形象重建框架。
Seeduplex是字节跳动于2026年4月9日发布的全双工语音大模型。采用"边听边说"架构,突破传统半双工交互模式,实现听与说同步处理。已在豆包App全量上线,成为业内首个规模化部署的全双工语音大模型。
国内首个输出分步式讲解的推理模型,专为教育场景设计,能够通过思维链技术模拟人类思考过程,帮助学生更好地理解和掌握知识。