一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。
开源的轻量化文本转语音(TTS)模型,基于 S1 模型开发,参数规模为 5 亿,支持 14 种语言和 50+ 情感语气控制。
高效生成高质量视频的开源项目,旨在通过开源原则,让视频生成技术更加普及化,为内容创作者提供简化复杂流程的平台。
PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
AlphaFold3是由谷歌DeepMind团队开发的AI模型,能够预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。
开源的 AI 创作工具,专为搭载 Intel® Arc™ GPU 的 PC 设计,支持图像生成、图像风格化和聊天机器人等功能。
腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。
开源的轻量化文本转语音(TTS)模型,基于 S1 模型开发,参数规模为 5 亿,支持 14 种语言和 50+ 情感语气控制。